論文の概要: In-Context Reinforcement Learning From Suboptimal Historical Data
- arxiv url: http://arxiv.org/abs/2601.20116v1
- Date: Tue, 27 Jan 2026 23:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.69612
- Title: In-Context Reinforcement Learning From Suboptimal Historical Data
- Title(参考訳): 最適歴史データを用いたインテクスト強化学習
- Authors: Juncheng Dong, Moyang Guo, Ethan X. Fang, Zhuoran Yang, Vahid Tarokh,
- Abstract要約: トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
本稿では,アクタ・クリティカルなアルゴリズムを文脈内でエミュレートする決定重要度変換フレームワークを提案する。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 56.60512975858003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved remarkable empirical successes, largely due to their in-context learning capabilities. Inspired by this, we explore training an autoregressive transformer for in-context reinforcement learning (ICRL). In this setting, we initially train a transformer on an offline dataset consisting of trajectories collected from various RL tasks, and then fix and use this transformer to create an action policy for new RL tasks. Notably, we consider the setting where the offline dataset contains trajectories sampled from suboptimal behavioral policies. In this case, standard autoregressive training corresponds to imitation learning and results in suboptimal performance. To address this, we propose the Decision Importance Transformer(DIT) framework, which emulates the actor-critic algorithm in an in-context manner. In particular, we first train a transformer-based value function that estimates the advantage functions of the behavior policies that collected the suboptimal trajectories. Then we train a transformer-based policy via a weighted maximum likelihood estimation loss, where the weights are constructed based on the trained value function to steer the suboptimal policies to the optimal ones. We conduct extensive experiments to test the performance of DIT on both bandit and Markov Decision Process problems. Our results show that DIT achieves superior performance, particularly when the offline dataset contains suboptimal historical data.
- Abstract(参考訳): トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
そこで本研究では,テキスト内強化学習(ICRL)のための自己回帰変換器の訓練について検討する。
この設定では、まず、様々なRLタスクから収集されたトラジェクトリからなるオフラインデータセット上でトランスフォーマーをトレーニングし、次にこのトランスフォーマーを修正して、新しいRLタスクに対するアクションポリシーを作成する。
特に、オフラインデータセットが最適下行動ポリシーからサンプリングされたトラジェクトリを含む設定について検討する。
この場合、標準自己回帰訓練は模倣学習に対応し、最適以下のパフォーマンスをもたらす。
そこで本研究では,アクタ・クリティカル・アルゴリズムをコンテキスト内でエミュレートするDIT(Decision Importance Transformer)フレームワークを提案する。
具体的には、まず、最適軌道を収集した行動ポリシーの利点関数を推定するトランスフォーマーに基づく値関数を訓練する。
次に、重み付き最大推定損失を用いてトランスフォーマーベースのポリシーを訓練し、トレーニングされた値関数に基づいて重みを構築し、最適値に準最適ポリシーを操る。
我々は,バンディットとマルコフ決定プロセスの両問題において,DITの性能をテストするための広範囲な実験を行った。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
関連論文リスト
- RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。