Fugu-MT 論文翻訳(概要): AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes

論文の概要: AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes

arxiv url: http://arxiv.org/abs/2506.14728v1
Date: Tue, 17 Jun 2025 17:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.589482
Title: AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes
Title（参考訳）: Agent Distill: 汎用MSPボックスによるトレーニングフリーエージェント蒸留
Authors: Jiahao Qiu, Xinzhe Juan, Yimin Wang, Ling Yang, Xuan Qi, Tongcheng Zhang, Jiacheng Guo, Yifu Lu, Zixin Yao, Hongru Wang, Shilong Liu, Xun Jiang, Liu Leqi, Mengdi Wang,
Abstract要約: MCP(Model-Context-Protocols)を直接再利用することで,スケーラブルな知識伝達を可能にする,新しいフリーエージェント蒸留フレームワークを提案する。 MCPは教師エージェントによって自律的に生成される再利用可能なタスク解決モジュールである。バイオメディカルおよび数学的なベンチマーク実験により、我々の蒸留された学生エージェントは、小さな言語モデルで構築され、先進的なシステムに匹敵する性能を達成できることを示した。
参考スコア（独自算出の注目度）: 35.504027343665605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While knowledge distillation has become a mature field for compressing large language models (LLMs) into smaller ones by aligning their outputs or internal representations, the distillation of LLM-based agents, which involve planning, memory, and tool use, remains relatively underexplored. Existing agent distillation methods typically replay full teacher trajectories or imitate step-by-step teacher tool usage, but they often struggle to train student agents to dynamically plan and act in novel environments. We propose AgentDistill, a novel, training-free agent distillation framework that enables efficient and scalable knowledge transfer via direct reuse of Model-Context-Protocols (MCPs), which are structured and reusable task-solving modules autonomously generated by teacher agents. The reuse of these distilled MCPs enables student agents to generalize their capabilities across domains and solve new problems with minimal supervision or human intervention. Experiments on biomedical and mathematical benchmarks demonstrate that our distilled student agents, built on small language models, can achieve performance comparable to advanced systems using large LLMs such as OctoTools (GPT-4o), highlighting the effectiveness of our framework in building scalable and cost-efficient intelligent agents.
Abstract（参考訳）: 知識蒸留は大規模言語モデル(LLM)を、出力や内部表現を整列させることで、より小さな言語に圧縮するための成熟した分野となっているが、計画、記憶、ツールの使用を含むLCMベースのエージェントの蒸留は、いまだに未熟である。既存のエージェント蒸留法は、通常、完全な教師の軌跡を再生するか、ステップバイステップの教師ツールの使用を模倣するが、新しい環境で動的に計画して行動するように学生エージェントを訓練するのに苦労することが多い。本稿では,教師エージェントが自律的に生成するタスク解決モジュールを構造化し再利用する,MCP(Model-Context-Protocols)の直接再利用による,効率的かつスケーラブルな知識伝達を可能にする,新しい非学習型エージェント蒸留フレームワークであるAgentDistillを提案する。これらの蒸留MCPの再利用により、学生エージェントはドメイン全体の能力を一般化し、最小限の監督や人的介入で新しい問題を解決することができる。バイオメディカルおよび数学的なベンチマーク実験により、我々の蒸留された学生エージェントは、OctoTools (GPT-4o)のような大規模LLMを用いた先進的なシステムに匹敵する性能を達成でき、スケーラブルでコスト効率のよい知的エージェントを構築する上で、我々のフレームワークの有効性を浮き彫りにしている。

関連論文リスト

AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。 AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文参考訳（メタデータ） (2025-07-20T10:22:36Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
Structured Agent Distillation for Large Language Model [58.22497891295258]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。 ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-05-20T02:01:55Z)
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。 LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-05-17T10:09:11Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。 LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文参考訳（メタデータ） (2024-02-17T18:31:21Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。