論文の概要: AdaCred: Adaptive Causal Decision Transformers with Feature Crediting
- arxiv url: http://arxiv.org/abs/2412.15427v1
- Date: Thu, 19 Dec 2024 22:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:19:54.430524
- Title: AdaCred: Adaptive Causal Decision Transformers with Feature Crediting
- Title(参考訳): AdaCred: 機能クレジットを備えた適応因果判定変換器
- Authors: Hemant Kumawat, Saibal Mukhopadhyay,
- Abstract要約: AdaCredは、短時間のアクション・リワード状態列から構築された因果グラフとして軌跡を表す新しいアプローチである。
実験により,AdaCredをベースとしたポリシでは,より短い軌道列が必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
- 参考スコア(独自算出の注目度): 11.54181863246064
- License:
- Abstract: Reinforcement learning (RL) can be formulated as a sequence modeling problem, where models predict future actions based on historical state-action-reward sequences. Current approaches typically require long trajectory sequences to model the environment in offline RL settings. However, these models tend to over-rely on memorizing long-term representations, which impairs their ability to effectively attribute importance to trajectories and learned representations based on task-specific relevance. In this work, we introduce AdaCred, a novel approach that represents trajectories as causal graphs built from short-term action-reward-state sequences. Our model adaptively learns control policy by crediting and pruning low-importance representations, retaining only those most relevant for the downstream task. Our experiments demonstrate that AdaCred-based policies require shorter trajectory sequences and consistently outperform conventional methods in both offline reinforcement learning and imitation learning environments.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、時系列モデリング問題として定式化され、モデルが過去の状態-行動-回帰シーケンスに基づいて将来の行動を予測する。
現在のアプローチは通常、オフラインのRL設定で環境をモデル化するために長い軌道列を必要とする。
しかし、これらのモデルは長期的表現を暗記することに過度に依存する傾向があり、これは、タスク固有の関連性に基づいて、トラジェクトリや学習された表現に効果的に寄与する能力を損なう。
本研究では,短時間の動作逆状態列から構築した因果グラフとして軌跡を表す新しいアプローチであるAdaCredを紹介する。
本モデルでは,低重要度表現の信用とプルーニングによって制御ポリシを適応的に学習し,下流タスクに最も関係のあるもののみを保持する。
実験により,AdaCredをベースとしたポリシでは,より短いトラジェクトリシーケンスが必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
関連論文リスト
- Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。
浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2024-12-15T17:33:56Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Goal-Conditioned Predictive Coding for Offline Reinforcement Learning [24.300131097275298]
本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。
本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
論文 参考訳(メタデータ) (2023-07-07T06:12:14Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。