論文の概要: Distilling LLM Agent into Small Models with Retrieval and Code Tools
- arxiv url: http://arxiv.org/abs/2505.17612v1
- Date: Fri, 23 May 2025 08:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.922345
- Title: Distilling LLM Agent into Small Models with Retrieval and Code Tools
- Title(参考訳): 検索ツールとコードツールを用いたLLMエージェントの小型モデルへの蒸留
- Authors: Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang,
- Abstract要約: Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 57.61747522001781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at complex reasoning tasks but remain computationally expensive, limiting their practical deployment. To address this, recent works have focused on distilling reasoning capabilities into smaller language models (sLMs) using chain-of-thought (CoT) traces from teacher LLMs. However, this approach struggles in scenarios requiring rare factual knowledge or precise computation, where sLMs often hallucinate due to limited capability. In this work, we propose Agent Distillation, a framework for transferring not only reasoning capability but full task-solving behavior from LLM-based agents into sLMs with retrieval and code tools. We improve agent distillation along two complementary axes: (1) we introduce a prompting method called first-thought prefix to enhance the quality of teacher-generated trajectories; and (2) we propose a self-consistent action generation for improving test-time robustness of small agents. We evaluate our method on eight reasoning tasks across factual and mathematical domains, covering both in-domain and out-of-domain generalization. Our results show that sLMs as small as 0.5B, 1.5B, 3B parameters can achieve performance competitive with next-tier larger 1.5B, 3B, 7B models fine-tuned using CoT distillation, demonstrating the potential of agent distillation for building practical, tool-using small agents. Our code is available at https://github.com/Nardien/agent-distillation.
- Abstract(参考訳): 大規模言語モデル (LLM) は複雑な推論タスクでは優れるが、計算コストは高く、実際の展開を制限している。
これを解決するために、最近の研究は、教師のLLMのチェーン・オブ・ソート(CoT)トレースを用いて、より小さな言語モデル(sLM)に推論機能を蒸留することに焦点を当てている。
しかし、このアプローチは、稀な事実知識や正確な計算を必要とするシナリオで苦労し、SLMは限られた能力のために幻覚することが多い。
本研究では,LLMをベースとしたエージェントから検索およびコードツールを備えたsLMへ,推論能力だけでなく,完全なタスク解決動作を伝達するフレームワークであるAgens Distillationを提案する。
2つの相補的軸に沿ったエージェント蒸留を改良し,(1)教師が生成する軌道の質を高めるため,第1思考プレフィックスと呼ばれるプロンプト法を導入し,(2)小型エージェントの試験時間ロバスト性を向上させるための自己持続的アクション生成を提案する。
本手法は,領域内および領域外の両方を対象とし,実数領域と数学的領域をまたいだ8つの推論タスクについて評価する。
以上の結果から, 0.5B, 1.5B, 3B の SLM は, CoT 蒸留を用いて微調整した次世代大型 1.5B, 3B, 7B モデルと競合し, 実用的ツールを用いた小型エージェントの蒸留の可能性を示した。
私たちのコードはhttps://github.com/Nardien/agent-distillationで利用可能です。
関連論文リスト
- Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文 参考訳(メタデータ) (2024-02-03T05:55:24Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。