論文の概要: Imitation Learning for Multi-turn LM Agents via On-policy Expert Corrections
- arxiv url: http://arxiv.org/abs/2512.14895v1
- Date: Tue, 16 Dec 2025 20:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.781131
- Title: Imitation Learning for Multi-turn LM Agents via On-policy Expert Corrections
- Title(参考訳): オンライン専門家補正によるマルチターンLMエージェントの模倣学習
- Authors: Niklas Lauffer, Xiang Deng, Srivatsa Kundurthy, Brad Kenstler, Jeff Da,
- Abstract要約: LMエージェントを訓練するための一般的なパラダイムは、専門家の軌跡を微調整する模倣学習に依存している。
従来のDAggerアルゴリズムからインスピレーションを得て,新しいデータ生成手法を提案する。
- 参考スコア(独自算出の注目度): 8.286067243223204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular paradigm for training LM agents relies on imitation learning, fine-tuning on expert trajectories. However, we show that the off-policy nature of imitation learning for multi-turn LM agents suffers from the fundamental limitation known as covariate shift: as the student policy's behavior diverges from the expert's, it encounters states not present in the training data, reducing the effectiveness of fine-tuning. Taking inspiration from the classic DAgger algorithm, we propose a novel data generation methodology for addressing covariate shift for multi-turn LLM training. We introduce on-policy expert corrections (OECs), partially on-policy data generated by starting rollouts with a student model and then switching to an expert model part way through the trajectory. We explore the effectiveness of our data generation technique in the domain of software engineering (SWE) tasks, a multi-turn setting where LLM agents must interact with a development environment to fix software bugs. Our experiments compare OEC data against various other on-policy and imitation learning approaches on SWE agent problems and train models using a common rejection sampling (i.e., using environment reward) combined with supervised fine-tuning technique. Experiments find that OEC trajectories show a relative 14% and 13% improvement over traditional imitation learning in the 7b and 32b setting, respectively, on SWE-bench verified. Our results demonstrate the need for combining expert demonstrations with on-policy data for effective multi-turn LM agent training.
- Abstract(参考訳): LMエージェントを訓練するための一般的なパラダイムは、専門家の軌跡を微調整する模倣学習に依存している。
しかし,多ターンLMエージェントの模倣学習の非政治的な性質は,共変量シフト(covariate shift)と呼ばれる基本的限界に悩まされている。学生政策の行動が専門家の行動から分岐するにつれて,訓練データに存在しない状態に遭遇し,微調整の有効性が低下する。
従来のDAggerアルゴリズムからインスピレーションを得て,マルチターンLDM学習における共変量シフトに対処する新しいデータ生成手法を提案する。
我々は,学生モデルによるロールアウトを始めて,その軌道を通した専門家モデルに切り替えることによって生成されるオンライン専門家補正(OEC)について紹介する。
LLMエージェントがソフトウェアバグを修正するために開発環境と対話しなければならないマルチターン環境であるソフトウェアエンジニアリング(SWE)タスクの領域におけるデータ生成手法の有効性について検討する。
本実験は,SWEエージェント問題と列車モデルにおけるOECデータと,教師付き微調整手法を併用した共通拒否サンプリング(環境報酬を用いた)を比較した。
実験の結果,OEC軌道は7bおよび32b設定における従来の模倣学習よりも14%と13%改善していることがわかった。
本研究は,実効的マルチターンLMエージェントトレーニングにおいて,専門家による実演とオンラインデータを組み合わせる必要性を実証するものである。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Imitation Learning from Observations under Transition Model Disparity [22.456737935789103]
専門家の観察(ILO)のデータセットを活用することでタスクを実行する学習は、専門家の報酬機能や専門家の行動にアクセスせずにスキルを学ぶための重要なパラダイムである。
スケーラブルなILOのための最近の手法は、専門家と学習者の状態遷移分布に適合する逆学習を利用する。
本稿では,学習者環境における仲介ポリシーを訓練し,学習者の代理的専門家として利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-25T05:36:54Z) - SS-MAIL: Self-Supervised Multi-Agent Imitation Learning [18.283839252425803]
アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)-
BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。
AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。
我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
論文 参考訳(メタデータ) (2021-10-18T01:17:50Z) - CoDE: Collocation for Demonstration Encoding [31.220899638271856]
デモのためのコロケーション(Collocation for Demonstration)と呼ばれるデータ効率のよい模倣学習手法を提案する。
最適制御におけるコロケーション技術からインスピレーションを得た補助軌道軌道を導入することにより、時間的問題による問題的バックプロパゲーションを回避する。
テーブルトップ操作を効率的に行うための7自由度ロボットマニピュレータ学習行動形成政策の実験について述べる。
論文 参考訳(メタデータ) (2021-05-07T00:34:43Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。