論文の概要: Revisiting DAgger in the Era of LLM-Agents
- arxiv url: http://arxiv.org/abs/2605.12913v1
- Date: Wed, 13 May 2026 02:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.766697
- Title: Revisiting DAgger in the Era of LLM-Agents
- Title(参考訳): LLM-Agents時代のダガー再考
- Authors: Changhao Li, Rushi Qiang, Jiawei Huang, Chenxiao Gao, Chao Zhang, Niao He, Bo Dai,
- Abstract要約: ロングホライゾン LM エージェントはマルチターン相互作用から学習し、1つの早期誤りがその後の状態分布を変化させ、全軌道を脱線させる。
教師の微調整によって教師の監督が密集し、検証可能な報酬による強化学習は、この非政治的なミスマッチを避ける。
マルチターンLMエージェントのデータセットアグリゲーション(DAgger)を再検討することにより,このジレンマに対処する。
- 参考スコア(独自算出の注目度): 35.615579397673166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon LM agents learn from multi-turn interaction, where a single early mistake can alter the subsequent state distribution and derail the whole trajectory. Existing recipes fall short in complementary ways: supervised fine-tuning provides dense teacher supervision but suffers from covariate shift because it is trained on off-policy teacher trajectories; while reinforcement learning with verifiable rewards avoids this off-policy mismatch by learning from on-policy rollouts but with only sparse outcome feedback. We address this dilemma by revisiting Dataset Aggregation (DAgger) for multi-turn LM agents: the algorithm collects trajectories through a turn-level interpolation of student and teacher policies, and the student is then trained on these trajectories using supervised labels provided by the teacher. By directly interacting with environments, we expose the model to realistic states likely to be encountered during deployment, thereby effectively mitigating covariate shift. Besides, since the student is learned by mimicking the teacher's behavior, it receives rich feedback during learning. To demonstrate DAgger enjoys the benefits of both worlds, we tested the algorithm to train a software-engineering agent with 4B- and 8B-scale student models. On SWE-bench Verified, our DAgger-style training improves over the strongest post-training baseline by +3.9 points at 4B and +3.6 points at 8B. The resulting 4B agent reaches 27.3%, outperforming representative published 8B SWE-agent systems, while the 8B agent achieves 29.8%, surpassing SWE-Gym-32B and coming within 5 points of stronger 32B-scale agents. Together with consistent gains on the held-out SWE-Gym split, these results suggest the effectiveness of DAgger for modern long-horizon LM agents.
- Abstract(参考訳): ロングホライゾン LM エージェントはマルチターン相互作用から学習し、1つの早期誤りがその後の状態分布を変化させ、全軌道を脱線させる。
教師の微調整は密集した教師の監督を提供するが、法外な教師の軌道で訓練されているため、共変的なシフトに苦しむ。
このジレンマには,マルチターンLMエージェントのデータセット集約(DAgger)を再検討することにより対処する。このアルゴリズムは,学生と教師の方針のターンレベルの補間を通じてトラジェクトリを収集し,教師が提供した教師ラベルを用いてこれらのトラジェクトリを訓練する。
環境と直接対話することで、デプロイ中に遭遇する可能性のある現実的な状態にモデルを公開することで、共変量シフトを効果的に軽減する。
また、生徒は教師の行動を模倣して学習するため、学習中に豊富なフィードバックを受ける。
DAggerが両方の世界の利益を享受することを示すため,ソフトウェア工学エージェントを4Bおよび8Bスケールの学生モデルで訓練するアルゴリズムを検証した。
SWEベンチ検証では,最強のポストトレーニングベースラインを4Bで+3.9点,8Bで+3.6点に改善した。
4Bエージェントは27.3%に達し、8Bエージェントは29.8%、SWE-Gym-32Bを上回り、32Bスケールの強いエージェントの5ポイント以内に到達する。
これらの結果は,SWE-Gym分割における一貫した利得とともに,DAggerの有効性が示唆された。
関連論文リスト
- MAD-OPD: Breaking the Ceiling in On-Policy Distillation via Multi-Agent Debate [17.31967380175203]
そこで我々は,MAD-OPD (Multi-Agent Debate-driven On-Policy Distillation)を提案する。
また,多段誤差合成によるトレーニングを安定させるために,ステップレベルサンプリングを付加したOPAD(On-Policy Agentic Distillation)を導入する。
論文 参考訳(メタデータ) (2026-05-02T09:41:37Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。
本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文 参考訳(メタデータ) (2026-03-04T07:23:54Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。