Fugu-MT 論文翻訳(概要): Distilling LLM Agent into Small Models with Retrieval and Code Tools

論文の概要: Distilling LLM Agent into Small Models with Retrieval and Code Tools

arxiv url: http://arxiv.org/abs/2505.17612v1
Date: Fri, 23 May 2025 08:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.922345
Title: Distilling LLM Agent into Small Models with Retrieval and Code Tools
Title（参考訳）: 検索ツールとコードツールを用いたLLMエージェントの小型モデルへの蒸留
Authors: Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang,
Abstract要約: Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
参考スコア（独自算出の注目度）: 57.61747522001781
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excel at complex reasoning tasks but remain computationally expensive, limiting their practical deployment. To address this, recent works have focused on distilling reasoning capabilities into smaller language models (sLMs) using chain-of-thought (CoT) traces from teacher LLMs. However, this approach struggles in scenarios requiring rare factual knowledge or precise computation, where sLMs often hallucinate due to limited capability. In this work, we propose Agent Distillation, a framework for transferring not only reasoning capability but full task-solving behavior from LLM-based agents into sLMs with retrieval and code tools. We improve agent distillation along two complementary axes: (1) we introduce a prompting method called first-thought prefix to enhance the quality of teacher-generated trajectories; and (2) we propose a self-consistent action generation for improving test-time robustness of small agents. We evaluate our method on eight reasoning tasks across factual and mathematical domains, covering both in-domain and out-of-domain generalization. Our results show that sLMs as small as 0.5B, 1.5B, 3B parameters can achieve performance competitive with next-tier larger 1.5B, 3B, 7B models fine-tuned using CoT distillation, demonstrating the potential of agent distillation for building practical, tool-using small agents. Our code is available at https://github.com/Nardien/agent-distillation.
Abstract（参考訳）: 大規模言語モデル (LLM) は複雑な推論タスクでは優れるが、計算コストは高く、実際の展開を制限している。これを解決するために、最近の研究は、教師のLLMのチェーン・オブ・ソート(CoT)トレースを用いて、より小さな言語モデル(sLM)に推論機能を蒸留することに焦点を当てている。しかし、このアプローチは、稀な事実知識や正確な計算を必要とするシナリオで苦労し、SLMは限られた能力のために幻覚することが多い。本研究では,LLMをベースとしたエージェントから検索およびコードツールを備えたsLMへ,推論能力だけでなく,完全なタスク解決動作を伝達するフレームワークであるAgens Distillationを提案する。 2つの相補的軸に沿ったエージェント蒸留を改良し,(1)教師が生成する軌道の質を高めるため,第1思考プレフィックスと呼ばれるプロンプト法を導入し,(2)小型エージェントの試験時間ロバスト性を向上させるための自己持続的アクション生成を提案する。本手法は,領域内および領域外の両方を対象とし,実数領域と数学的領域をまたいだ8つの推論タスクについて評価する。以上の結果から, 0.5B, 1.5B, 3B の SLM は, CoT 蒸留を用いて微調整した次世代大型 1.5B, 3B, 7B モデルと競合し, 実用的ツールを用いた小型エージェントの蒸留の可能性を示した。私たちのコードはhttps://github.com/Nardien/agent-distillationで利用可能です。

関連論文リスト

Agentic-R1: Distilled Dual-Strategy Reasoning [44.848089301154026]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文参考訳（メタデータ） (2025-07-08T06:35:16Z)
AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes [35.504027343665605]
MCP(Model-Context-Protocols)を直接再利用することで,スケーラブルな知識伝達を可能にする,新しいフリーエージェント蒸留フレームワークを提案する。 MCPは教師エージェントによって自律的に生成される再利用可能なタスク解決モジュールである。バイオメディカルおよび数学的なベンチマーク実験により、我々の蒸留された学生エージェントは、小さな言語モデルで構築され、先進的なシステムに匹敵する性能を達成できることを示した。
論文参考訳（メタデータ） (2025-06-17T17:08:32Z)
Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。 GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文参考訳（メタデータ） (2025-03-13T03:40:50Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文参考訳（メタデータ） (2024-02-03T05:55:24Z)
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。 LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文参考訳（メタデータ） (2023-01-28T02:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。