論文の概要: In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs
- arxiv url: http://arxiv.org/abs/2512.02543v1
- Date: Tue, 02 Dec 2025 09:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.796503
- Title: In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs
- Title(参考訳): 自己整合性カスケードを用いたインコンテクスト蒸留 : LLM剤のコスト削減のための簡易かつ訓練不要な方法
- Authors: Vishnu Sarukkai, Asanshay Gupta, James Hong, Michaël Gharbi, Kayvon Fatahalian,
- Abstract要約: 微調整に伴う開発コストを発生させることなく, LLMエージェント推論コストを削減するための簡易な手法を提案する。
最も重要なことは、知識蒸留のアイデアを文脈内学習環境に適応させる$textitin-context distillation$を導入することである。
提案手法では,各エージェントステップで関連する教師のデモンストレーションを検索し,インコンテキストの事例として学生に提供し,ハエの教師行動の模倣を可能にする。
- 参考スコア(独自算出の注目度): 15.204355975284658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The world currently has an abundance of ideas for how to use new LLM agents, and developers seek to rapidly prototype and test new agentic designs. However, executing agents at scale using high-capacity LLMs incurs high inference costs. We propose a simple method for reducing LLM agent inference costs without incurring the development friction costs associated with LLM fine-tuning (long training cycles, optimization hyperparameter tweaking loops) or manual prompt engineering (laborious trial and error). Most importantly, we introduce $\textit{in-context distillation}$, which adapts the idea of knowledge distillation (training a low cost-student model to mimic a high-cost teacher) to an in-context learning setting. Our approach retrieves relevant teacher demonstrations at each agent step and provides them to the student as in-context examples, enabling the student to imitate teacher behavior on-the-fly. We combine in-context distillation with the established idea of $\textit{self-consistency cascades}$ to know when the trust the student. This adaptive strategy realizes the cost benefits of model specialization while preserving the productivity of working with frozen models. On the multi-step embodied reasoning benchmark ALFWorld, our method matches teacher-level accuracy at $\textbf{2.5$\times$ lower cost}$, reducing per-episode costs from \$0.059 to \$0.024. The upfront demonstration cost amortizes after just 843 episodes, yielding cumulative savings exceeding \$34,900 at deployment scale (1M episodes). On AppWorld, a complex agent benchmark requiring multi-step API workflows, we shift the Pareto frontier by achieving a $\textbf{2$\times$ cost reduction}$ at iso-accuracy. By reducing operational costs while maintaining rapid experimentation cycles with frozen models, our approach makes advanced agentic systems economically viable for a broader range of applications.
- Abstract(参考訳): 世界には現在、新しいLLMエージェントの使い方に関するアイデアが数多くあり、開発者は新しいエージェント設計のプロトタイプとテストを迅速に行おうとしている。
しかし、LLMを用いた大規模エージェントの実行は、高い推論コストを発生させる。
LLMファインチューニング(長期トレーニングサイクル、最適化ハイパーパラメータ調整ループ)や手動プロンプトエンジニアリング(共同試行錯誤)に関連する開発摩擦コストを発生させることなく、LLMエージェントの推論コストを削減するための簡易な手法を提案する。
より重要なのは、$\textit{in-context distillation}$は、知識蒸留(高コストの教師を模倣するために低コストの学生モデルを訓練する)の考え方を、コンテキスト内学習環境に適用するものである。
提案手法は,各エージェントステップで関連する教員のデモンストレーションを検索し,その実例として学生に提供し,教師の行動の模倣を可能にする。
In-context distillation with the established idea of $\textit{self-consistency cascades}$ to know the trust the students。
この適応戦略は、凍結モデルで作業する生産性を保ちながら、モデル特殊化のコスト効果を実現する。
マルチステップの具体的推論ベンチマークALFWorldでは、教師レベルの精度を$\textbf{2.5$\times$ lower cost}$と一致させ、エピソードあたりのコストを0.059ドルから0.024ドルに削減した。
先行デモのコストはわずか843回で償却され、累積貯蓄額は34,900ドルを超える(100万回)。
多段階のAPIワークフローを必要とする複雑なエージェントベンチマークであるAppWorldでは、$\textbf{2$\times$ cost reduction}$をイソ精度で達成することで、Paretoフロンティアをシフトしています。
凍結モデルによる迅速な実験サイクルを維持しつつ,運用コストを低減し,より広い範囲のアプリケーションに対して,先進的なエージェントシステムを経済的に実現可能にする。
関連論文リスト
- xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Economic Evaluation of LLMs [0.9208007322096532]
我々は、誤りの経済的コストが0.01ドルを超えると、推論モデルがより正確でコストのかかるトレードオフをもたらすことを示した。
誤りを犯すコストが0.1ドルという場合,大きなLLMがカスケードを上回っていることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:16:02Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。