論文の概要: From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2509.14257v2
- Date: Thu, 09 Oct 2025 04:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.684342
- Title: From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
- Title(参考訳): 訂正から熟達へ:大規模言語モデルエージェントの強化蒸留
- Authors: Yuanjie Lyu, Chengyu Wang, Jun Huang, Tong Xu,
- Abstract要約: 大規模言語モデルエージェントは反復的推論とツールの使用を通じて複雑なタスクの解決に長けている。
既存の蒸留手法は、小規模の生徒に完全な教師の軌跡を模倣するように訓練する。
本研究では,教師が最初期の誤りのみを訂正する学習者中心のフレームワークであるSCoReを提案する。
- 参考スコア(独自算出の注目度): 13.982204994247718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model agents excel at solving complex tasks through iterative reasoning and tool use, but typically depend on ultra-large, costly backbones. Existing distillation approaches train smaller students to imitate full teacher trajectories, yet reasoning and knowledge gaps between the teacher and student can cause compounding errors. We propose SCoRe, a student-centered framework in which the student generates training trajectories and the teacher corrects only the earliest error, producing training data matched to the student's ability and exposing specific weaknesses. The student is first fine-tuned on corrected trajectories. Subsequently, short-horizon reinforcement learning starts from the verified prefix preceding the earliest error, with target rewards assigned at that step. This design encourages autonomous problem-solving beyond imitation and enhances training stability. On 12 challenging benchmarks, a 7B-parameter student distilled with SCoRe matches the agentic performance of a 72B-parameter teacher.
- Abstract(参考訳): 大規模言語モデルエージェントは反復的推論とツール使用を通じて複雑なタスクの解決に優れるが、通常は超大規模でコストのかかるバックボーンに依存している。
既存の蒸留法は、小学生に完全な教師軌道を模倣するように訓練するが、教師と生徒の間の推論と知識のギャップは複合的な誤りを引き起こす可能性がある。
本研究では,教師が最初期の誤りのみを訂正し,生徒の能力に合ったトレーニングデータを生成し,特定の弱点を明らかにするための,学生中心のフレームワークであるSCoReを提案する。
学生は最初に修正された軌跡を微調整します。
その後、最初期のエラーに先立って確認されたプレフィックスから短水平強化学習が開始され、そのステップで目標報酬が割り当てられる。
この設計は、模倣を越えて自律的な問題解決を促進し、トレーニングの安定性を高める。
SCoReを蒸留した7Bパラメータの生徒は、12の挑戦的なベンチマークで72Bパラメータの教師のエージェントパフォーマンスと一致した。
関連論文リスト
- Personalized Distractor Generation via MCTS-Guided Reasoning Reconstruction [33.217474795590576]
複数選択質問(MCQ)における不正確な答えの選択は、学生の誤解を診断し、教育評価において重要な役割を担っている。
最近の研究は、大きな言語モデル(LLM)を活用して、グループレベルの共有障害を生成する。
本稿では,各学生の過去の質問回答(QA)記録から推定される個人的誤解に基づいて,パーソナライズされたトラクタ生成の課題を紹介する。
論文 参考訳(メタデータ) (2025-08-15T03:20:37Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。