論文の概要: Transformers Provably Implement In-Context Reinforcement Learning with Policy Improvement
- arxiv url: http://arxiv.org/abs/2605.05755v1
- Date: Thu, 07 May 2026 06:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.574672
- Title: Transformers Provably Implement In-Context Reinforcement Learning with Policy Improvement
- Title(参考訳): トランスフォーマーは、政策改善を伴うインテクスト強化学習を実現する
- Authors: Haodong Liang, Lifeng Lai,
- Abstract要約: コンテクスト内強化学習を行う変換器の能力について検討する。
線形自己注意変換器ブロックは、ポリシー改善手法を確実に実装できることを示す。
ICRL文献における最初の収束保証を確立する。
- 参考スコア(独自算出の注目度): 23.24714915251971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the ability of transformers to perform in-context reinforcement learning (ICRL), where a model must infer and execute learning algorithms from trajectory data without parameter updates. We show that a linear self-attention transformer block can provably implement policy-improvement methods, including semi-gradient SARSA and actor-critic, via explicit parameter constructions. Beyond existence, we design a teacher-mimicking training procedure, analyze its gradient-flow dynamics, and establish the first convergence guarantee in the ICRL literature: under suitable richness conditions on the training MDP distribution, gradient flow converges locally and exponentially to an optimal parameter manifold corresponding to the desired RL update. Empirically, training transformers on randomly generated tabular MDPs confirms these predictions: the learned models recover the parameter structure of our explicit constructions and, when deployed on unseen MDPs, deliver strong in-context control performance. Together, these results illuminate how transformer architectures internalize and execute classical reinforcement learning algorithms in context, bridging mechanistic understanding and training dynamics in ICRL.
- Abstract(参考訳): 本研究では,モデルがパラメータ更新を行なわずに軌跡データから学習アルゴリズムを推論し実行しなければならない,インコンテキスト強化学習(ICRL)を実現するトランスフォーマーの能力について検討する。
線形自己注意変換器ブロックは、明確なパラメータ構成により、半漸進的なSARSAやアクター批判を含むポリシー改善手法を確実に実装できることを示す。
ICRLの文献では, 学習用MDP分布のリッチネス条件の下では, 勾配流は局所的に指数関数的に, 所望のRL更新に対応する最適パラメータ多様体に収束する。
学習したモデルは、明示的な構成のパラメータ構造を復元し、見当たらないMDPにデプロイすると、強いコンテキスト内制御性能を提供する。
これらの結果は、トランスフォーマーアーキテクチャが古典的強化学習アルゴリズムをコンテキスト内で内部化し実行し、ILCLで機械的理解とトレーニングのダイナミクスをブリッジする方法を照らす。
関連論文リスト
- Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent [9.440916748352722]
ソフトマックスアテンションを持つ変圧器は線形分類データに基づいてコンテキスト内学習を行う。
まず、コンテキスト内ロジスティック回帰を実行できる多層変換器のクラスを構築する。
構築した変圧器は, (i) 1ステップの勾配降下によって教師される1つの自己注意層をトレーニングし, (ii) 訓練された層を繰り返し適用してループモデルが得られることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:27:55Z) - In-Context Learning for Gradient-Free Receiver Adaptation: Principles, Applications, and Theory [54.92893355284945]
ディープラーニングベースの無線受信機は、様々なチャネル環境に動的に適応する能力を提供する。
ジョイントトレーニング、ハイパーネットワークベースの手法、メタラーニングを含む現在の適応戦略は、限られた柔軟性を示すか、勾配降下による明示的な最適化を必要とする。
本稿では、インコンテキスト学習(ICL)の新たなパラダイムに根ざした勾配なし適応手法を提案する。
論文 参考訳(メタデータ) (2025-06-18T06:43:55Z) - Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。
以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-26T10:16:57Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。