論文の概要: Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought
- arxiv url: http://arxiv.org/abs/2605.07123v1
- Date: Fri, 08 May 2026 01:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.733876
- Title: Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought
- Title(参考訳): 思考の連鎖による文脈強化学習の収束と創発
- Authors: Zixuan Xie, Xinyu Liu, Rohan Chandra, Shangtong Zhang,
- Abstract要約: In-context reinforcement learning (ICRL) とは、RLエージェントがパラメータの更新なしに新たなタスクに適応できる機能である。
近年の実証研究により、CoT(Chain-of-Thought)生成がこのICRL能力を増幅できることが証明されている。
- 参考スコア(独自算出の注目度): 21.241323360100548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context reinforcement learning (ICRL) refers to the ability of RL agents to adapt to new tasks at inference time without parameter updates by conditioning on additional context. Recent empirical studies further demonstrate that Chain-of-Thought (CoT) generation can amplify this ICRL capability. This paper is the first to provide a theoretical understanding on how CoT interacts with ICRL. We conduct our analysis in a policy evaluation setup with linear Transformer. We prove that with specific Transformer parameters, the CoT generation process is equivalent to repeatedly executing temporal difference learning updates. Additionally, we provide finite sample convergence analysis showing that the policy evaluation error decreases geometrically with CoT length and eventually saturates at a statistical floor determined by the context length. We also prove that the desired Transformer parameters are a global minimizer of the pretraining loss, providing a theoretical understanding on the empirical emergence of those parameters.
- Abstract(参考訳): In-context reinforcement learning (ICRL) は、RLエージェントがパラメータの更新なしに新たなタスクに適応できる機能である。
近年の実証研究により、CoT(Chain-of-Thought)生成がこのICRL能力を増幅できることが証明されている。
本稿は、CoTがICRLとどのように相互作用するかを理論的に理解した最初の論文である。
線形変換器を用いた政策評価設定で解析を行う。
特定のTransformerパラメータでは、CoT生成プロセスは時間差学習更新を繰り返し実行するのに等価であることを示す。
さらに,政策評価誤差がCoT長とともに幾何的に減少し,最終的に文脈長によって決定される統計的フロアで飽和することを示す有限サンプル収束解析を行った。
また、所望のTransformerパラメータが事前学習損失の最小化であり、これらのパラメータの経験的出現に関する理論的理解を提供する。
関連論文リスト
- Transformers Provably Implement In-Context Reinforcement Learning with Policy Improvement [23.24714915251971]
コンテクスト内強化学習を行う変換器の能力について検討する。
線形自己注意変換器ブロックは、ポリシー改善手法を確実に実装できることを示す。
ICRL文献における最初の収束保証を確立する。
論文 参考訳(メタデータ) (2026-05-07T06:50:49Z) - When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - Structuring Value Representations via Geometric Coherence in Markov Decision Processes [9.312400001335659]
提案するemphGCR-RL(Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning, 幾何コヒーレンス正規化強化学習)は,超精密化のシーケンスを演算する。
Q-learningとアクター-criticの2つの新しいアルゴリズムを開発し、これらの超精密化を効果的に実現した。
我々は, GCR-RLを様々なタスクで実証的に評価し, 高いベースライン上での試料効率と安定性能の大幅な向上を実証した。
論文 参考訳(メタデータ) (2026-02-03T01:35:58Z) - Towards Monotonic Improvement in In-Context Reinforcement Learning [18.67894044930047]
In-Context Reinforcement Learning (ICRL)は、新しいタスクに迅速に適応できるエージェントを開発するための有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
学習時間とテスト時間の両方でコンテキスト値を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T09:42:19Z) - Towards Provable Emergence of In-Context Reinforcement Learning [20.54963042400693]
いくつかの強化学習(RL)エージェントは、タスク分布の事前学習後にパラメータを更新することなく、広範囲に分散したタスクを解くことができる。
パラメータ更新を行う代わりに、新しいタスクで評価されると、事前訓練されたエージェントは、コンテキストと呼ばれる追加の入力に対してポリシーを条件付ける。
この現象は一般に in-context RL (ICRL) と呼ばれる。
論文 参考訳(メタデータ) (2025-09-22T20:23:09Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。