論文の概要: Mental Accounts for Actions: EWA-Inspired Attention in Decision Transformers
- arxiv url: http://arxiv.org/abs/2509.15498v1
- Date: Fri, 19 Sep 2025 00:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.947302
- Title: Mental Accounts for Actions: EWA-Inspired Attention in Decision Transformers
- Title(参考訳): 行動のメンタルアカウント:決定変換器におけるEWAにインスパイアされた注意
- Authors: Zahra Aref, Narayan B. Mandayam,
- Abstract要約: オンライン決定変換器(EWA-VQ-ODT)のためのベクトル量子化を用いた経験量アトラクションを提案する。
EWA-VQ-ODTは、最近の成功と失敗をまとめた、アクションごとのメンタルアカウントを保持する軽量モジュールである。
標準の連続制御ベンチマークでは、EWA-VQ-ODTはサンプル効率とODTに対する平均リターンを改善している。
- 参考スコア(独自算出の注目度): 2.9385229328767983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as a compelling architecture for sequential decision-making by modeling trajectories via self-attention. In reinforcement learning (RL), they enable return-conditioned control without relying on value function approximation. Decision Transformers (DTs) exploit this by casting RL as supervised sequence modeling, but they are restricted to offline data and lack exploration. Online Decision Transformers (ODTs) address this limitation through entropy-regularized training on on-policy rollouts, offering a stable alternative to traditional RL methods like Soft Actor-Critic, which depend on bootstrapped targets and reward shaping. Despite these advantages, ODTs use standard attention, which lacks explicit memory of action-specific outcomes. This leads to inefficiencies in learning long-term action effectiveness. Inspired by cognitive models such as Experience-Weighted Attraction (EWA), we propose Experience-Weighted Attraction with Vector Quantization for Online Decision Transformers (EWA-VQ-ODT), a lightweight module that maintains per-action mental accounts summarizing recent successes and failures. Continuous actions are routed via direct grid lookup to a compact vector-quantized codebook, where each code stores a scalar attraction updated online through decay and reward-based reinforcement. These attractions modulate attention by biasing the columns associated with action tokens, requiring no change to the backbone or training objective. On standard continuous-control benchmarks, EWA-VQ-ODT improves sample efficiency and average return over ODT, particularly in early training. The module is computationally efficient, interpretable via per-code traces, and supported by theoretical guarantees that bound the attraction dynamics and its impact on attention drift.
- Abstract(参考訳): トランスフォーマーは、自己意識を通じて軌道をモデル化することによって、シーケンシャルな意思決定のための魅力的なアーキテクチャとして現れてきた。
強化学習(RL)では、値関数近似に頼ることなく、戻り条件制御を可能にする。
決定変換器(DT)は、RLを教師付きシーケンスモデリングとしてキャストすることでこれを活用しているが、それらはオフラインデータに限定され、探索が欠如している。
Online Decision Transformers (ODTs) はこの制限に対処するため、オン・ポリティック・ロールアウトにおけるエントロピー規則化されたトレーニングを通じて、ブートストラップされたターゲットと報酬形成に依存するSoft Actor-Criticのような従来のRL手法に代わる安定した代替手段を提供する。
これらの利点にもかかわらず、ODTは標準の注意を使っており、アクション固有の結果の明確な記憶を欠いている。
これにより、長期的な行動の有効性を学ぶのに非効率になる。
EWA(Experience-Weighted Attraction)などの認知モデルにヒントを得て,近年の成功と失敗を要約した行動ごとのメンタルアカウントを管理する軽量モジュールであるEWA-VQ-ODTを提案する。
連続的なアクションは直接グリッドのルックアップを通じて、コンパクトなベクトル量子化されたコードブックにルーティングされる。
これらのアトラクションは、アクショントークンに関連するカラムをバイアスし、バックボーンの変更やトレーニングの目的を必要とせずに注意を変調する。
標準の連続制御ベンチマークでは、EWA-VQ-ODTはサンプル効率とODTに対する平均戻り率を改善する。
モジュールは計算的に効率的で、コード毎のトレースを通じて解釈可能であり、アトラクションダイナミクスとアトラクションドリフトへの影響を束縛する理論的な保証によって支えられている。
関連論文リスト
- Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。