論文の概要: Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.23450v1
- Date: Wed, 30 Oct 2024 20:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:48.443467
- Title: Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning
- Title(参考訳): オフダイナミックス強化学習のためのリターン加算決定変換器
- Authors: Ruhan Wang, Yu Yang, Zhishuai Liu, Dongruo Zhou, Pan Xu,
- Abstract要約: 限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
- 参考スコア(独自算出の注目度): 26.915055027485465
- License:
- Abstract: We study offline off-dynamics reinforcement learning (RL) to utilize data from an easily accessible source domain to enhance policy learning in a target domain with limited data. Our approach centers on return-conditioned supervised learning (RCSL), particularly focusing on the decision transformer (DT), which can predict actions conditioned on desired return guidance and complete trajectory history. Previous works tackle the dynamics shift problem by augmenting the reward in the trajectory from the source domain to match the optimal trajectory in the target domain. However, this strategy can not be directly applicable in RCSL owing to (1) the unique form of the RCSL policy class, which explicitly depends on the return, and (2) the absence of a straightforward representation of the optimal trajectory distribution. We propose the Return Augmented Decision Transformer (RADT) method, where we augment the return in the source domain by aligning its distribution with that in the target domain. We provide the theoretical analysis demonstrating that the RCSL policy learned from RADT achieves the same level of suboptimality as would be obtained without a dynamics shift. We introduce two practical implementations RADT-DARA and RADT-MV respectively. Extensive experiments conducted on D4RL datasets reveal that our methods generally outperform dynamic programming based methods in off-dynamics RL scenarios.
- Abstract(参考訳): 本研究では、オフラインオフダイナミックス強化学習(RL)を用いて、アクセスしやすいソースドメインからのデータを活用し、限られたデータを持つターゲットドメインにおけるポリシー学習を強化する。
提案手法は,リターン条件付き教師あり学習(RCSL)を中心に,特に決定変換器(DT)に着目し,所望のリターンガイダンスと完全なトラジェクトリ履歴に基づく行動を予測する。
従来の作業は、対象領域の最適軌道に一致するように、ソース領域からの軌道の報酬を増大させることで、ダイナミクスシフト問題に対処する。
しかしながら, この戦略は, (1) 回帰に明確に依存する RCSL ポリシークラスのユニークな形式, (2) 最適軌道分布の直接的な表現がないため, RCSL では直接適用できない。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
本稿では、RADTから学んだRCSLポリシーが、動的シフトを伴わずに得られる準最適レベルを達成できることを理論的に示す。
本稿では,RADT-DARAとRADT-MVの2つの実装を紹介する。
D4RLデータセットを用いた大規模な実験により,本手法はオフダイナミックスRLシナリオにおいて,動的プログラミングに基づく手法よりも一般的に優れていることがわかった。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - High-Precision Geosteering via Reinforcement Learning and Particle
Filters [0.0]
ジオステアリング(Geosteering)はドリル操作の重要なコンポーネントであり、伝統的にログデータなどの様々なデータソースを手動で解釈する。
ADP(Approximate Dynamic Programming)は将来性を示したが、現実的な多様なシナリオへの適応性に欠けていた。
報酬に基づく反復学習を通じて最適な意思決定を容易にするための強化学習(RL)を提案する。
論文 参考訳(メタデータ) (2024-02-09T12:54:34Z) - DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning [19.84386060857712]
本稿では、微分軌道最適化をポリシー表現として活用し、深層強化と模倣学習のためのアクションを生成するDiffTORIを提案する。
15のモデルベースRLタスクと35の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTORIはどちらのドメインでも最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-02-08T05:26:40Z) - Critic-Guided Decision Transformer for Offline Reinforcement Learning [28.211835303617118]
CGDT(Critical-Guided Decision Transformer)
決定変換器の軌道モデリング機能を備えた値ベース手法からの長期的な戻り値の予測可能性を利用する。
これらの知見に基づいて,提案手法は,値に基づく手法からの長期的なリターンの予測可能性と,決定変換器の軌道モデリング能力を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-21T10:29:17Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - PGrad: Learning Principal Gradients For Domain Generalization [14.134043376245165]
我々はPGradと呼ばれる新しいDGトレーニング戦略を開発し、頑健な勾配の方向を学習し、目に見えない領域におけるモデルの一般化能力を向上させる。
PGradの勾配設計では、DGトレーニングはドメインに依存したノイズ信号を無視し、全てのトレーニングドメインを堅牢な方向で更新する。
PGradは7つのデータセットにまたがる競合的な結果を達成する。
論文 参考訳(メタデータ) (2023-05-02T00:48:24Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。