論文の概要: AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes
- arxiv url: http://arxiv.org/abs/2506.14728v1
- Date: Tue, 17 Jun 2025 17:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.589482
- Title: AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes
- Title(参考訳): Agent Distill: 汎用MSPボックスによるトレーニングフリーエージェント蒸留
- Authors: Jiahao Qiu, Xinzhe Juan, Yimin Wang, Ling Yang, Xuan Qi, Tongcheng Zhang, Jiacheng Guo, Yifu Lu, Zixin Yao, Hongru Wang, Shilong Liu, Xun Jiang, Liu Leqi, Mengdi Wang,
- Abstract要約: MCP(Model-Context-Protocols)を直接再利用することで,スケーラブルな知識伝達を可能にする,新しいフリーエージェント蒸留フレームワークを提案する。
MCPは教師エージェントによって自律的に生成される再利用可能なタスク解決モジュールである。
バイオメディカルおよび数学的なベンチマーク実験により、我々の蒸留された学生エージェントは、小さな言語モデルで構築され、先進的なシステムに匹敵する性能を達成できることを示した。
- 参考スコア(独自算出の注目度): 35.504027343665605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While knowledge distillation has become a mature field for compressing large language models (LLMs) into smaller ones by aligning their outputs or internal representations, the distillation of LLM-based agents, which involve planning, memory, and tool use, remains relatively underexplored. Existing agent distillation methods typically replay full teacher trajectories or imitate step-by-step teacher tool usage, but they often struggle to train student agents to dynamically plan and act in novel environments. We propose AgentDistill, a novel, training-free agent distillation framework that enables efficient and scalable knowledge transfer via direct reuse of Model-Context-Protocols (MCPs), which are structured and reusable task-solving modules autonomously generated by teacher agents. The reuse of these distilled MCPs enables student agents to generalize their capabilities across domains and solve new problems with minimal supervision or human intervention. Experiments on biomedical and mathematical benchmarks demonstrate that our distilled student agents, built on small language models, can achieve performance comparable to advanced systems using large LLMs such as OctoTools (GPT-4o), highlighting the effectiveness of our framework in building scalable and cost-efficient intelligent agents.
- Abstract(参考訳): 知識蒸留は大規模言語モデル(LLM)を、出力や内部表現を整列させることで、より小さな言語に圧縮するための成熟した分野となっているが、計画、記憶、ツールの使用を含むLCMベースのエージェントの蒸留は、いまだに未熟である。
既存のエージェント蒸留法は、通常、完全な教師の軌跡を再生するか、ステップバイステップの教師ツールの使用を模倣するが、新しい環境で動的に計画して行動するように学生エージェントを訓練するのに苦労することが多い。
本稿では,教師エージェントが自律的に生成するタスク解決モジュールを構造化し再利用する,MCP(Model-Context-Protocols)の直接再利用による,効率的かつスケーラブルな知識伝達を可能にする,新しい非学習型エージェント蒸留フレームワークであるAgentDistillを提案する。
これらの蒸留MCPの再利用により、学生エージェントはドメイン全体の能力を一般化し、最小限の監督や人的介入で新しい問題を解決することができる。
バイオメディカルおよび数学的なベンチマーク実験により、我々の蒸留された学生エージェントは、OctoTools (GPT-4o)のような大規模LLMを用いた先進的なシステムに匹敵する性能を達成でき、スケーラブルでコスト効率のよい知的エージェントを構築する上で、我々のフレームワークの有効性を浮き彫りにしている。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - Structured Agent Distillation for Large Language Model [58.22497891295258]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。