論文の概要: Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference
- arxiv url: http://arxiv.org/abs/2601.22132v1
- Date: Thu, 29 Jan 2026 18:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.09657
- Title: Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference
- Title(参考訳): 答えではなくヒントに対する支払い: コスト効率の良い推論のためのLLMシェパーディング
- Authors: Ziming Dong, Hardik Sharma, Evan O'Toole, Jaya Prakash Champati, Kui Wu,
- Abstract要約: 小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。
LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。
シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
- 参考スコア(独自算出の注目度): 7.865726406769634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) deliver state-of-the-art performance on complex reasoning tasks, but their inference costs limit deployment at scale. Small Language Models (SLMs) offer dramatic cost savings yet lag substantially in accuracy. Existing approaches - routing and cascading - treat the LLM as an all-or-nothing resource: either the query bypasses the LLM entirely, or the LLM generates a complete response at full cost. We introduce LLM Shepherding, a framework that requests only a short prefix (a hint) from the LLM and provides it to SLM. This simple mechanism is surprisingly effective for math and coding tasks: even hints comprising 10-30% of the full LLM response improve SLM accuracy significantly. Shepherding generalizes both routing and cascading, and it achieves lower cost under oracle decision-making. We develop a two-stage predictor that jointly determines whether a hint is needed and how many tokens to request. On the widely-used mathematical reasoning (GSM8K, CNK12) and code generation (HumanEval, MBPP) benchmarks, Shepherding reduces costs by 42-94% relative to LLM-only inference. Compared to state-of-the-art routing and cascading baselines, shepherding delivers up to 2.8x cost reduction while matching accuracy. To our knowledge, this is the first work to exploit token-level budget control for SLM-LLM collaboration.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクに対して最先端のパフォーマンスを提供するが、その推論コストは大規模なデプロイメントを制限する。
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。
既存のアプローチ - ルーティングとカスケーディング - は LLM をオール・オー・ナッシングのリソースとして扱い、クエリが LLM を完全にバイパスするか、あるいは LLM が完全なレスポンスを全コストで生成する。
LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。
完全なLSM応答の10~30%からなるヒントでさえ、SLMの精度を大幅に向上させる。
シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
我々は,ヒントが必要かどうか,要求するトークン数とを共同で決定する2段階予測器を開発した。
広く使われている数学的推論(GSM8K, CNK12)とコード生成(HumanEval, MBPP)のベンチマークでは、ShepherdingはLSMのみの推論と比較してコストを42-94%削減する。
最先端のルーティングとカスケードベースラインと比較すると、シェパードは精度良く2.8倍のコスト削減をもたらす。
私たちの知る限り、これはSLM-LLMコラボレーションのためのトークンレベルの予算管理を利用する最初の作業です。
関連論文リスト
- How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。
LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T20:17:20Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。