論文の概要: Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference
- arxiv url: http://arxiv.org/abs/2602.22090v1
- Date: Wed, 25 Feb 2026 16:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.911614
- Title: Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference
- Title(参考訳): コスト効率の良い推論のための信頼性駆動型マルチスケールモデル選択
- Authors: Bo-Wei Chen, Chung-Chi Chen, An-Zi Yen,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな自然言語タスクに対する推論に革命をもたらした。
本稿では,信頼度推定に基づいて最適モデルを動的に選択する信頼性駆動型戦略を提案する。
- 参考スコア(独自算出の注目度): 10.009730627424629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized inference across diverse natural language tasks, with larger models performing better but at higher computational costs. We propose a confidence-driven strategy that dynamically selects the most suitable model based on confidence estimates. By assessing a model's confidence in handling the task and response accuracy, tasks that are likely to be solved correctly are retained, while more uncertain or complex cases are delegated to a larger model, ensuring reliability while minimizing computation. Specifically, we evaluate a model's likelihood of knowing the correct answer and the probability that its response is accurate. Experiments on the Massive Multitask Language Understanding (MMLU) benchmark show that our approach achieves accuracy comparable to the largest model while reducing computational costs by 20\% to 40\%. When applied to GPT-4o API calls, it reduces token usage by approximately 60\%, further improving cost efficiency. These findings indicate the potential of confidence-based model selection to enhance real-world LLM deployment, particularly in resource-constrained settings such as edge devices and commercial API applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる推論に革命をもたらした。
本稿では,信頼度推定に基づいて最適モデルを動的に選択する信頼性駆動型戦略を提案する。
タスクの処理に対するモデルの信頼性と応答精度を評価することにより、正しく解決される可能性のあるタスクは保持され、より不確実あるいは複雑なケースはより大きなモデルに委譲され、計算を最小化しながら信頼性を確保する。
具体的には,モデルが正解と正解の確率と正解の確率を評価する。
MMLU(Massive Multitask Language Understanding)ベンチマーク実験により,提案手法は最大モデルに匹敵する精度を達成し,計算コストを20~40倍に削減することを示した。
GPT-4o APIコールに適用されると、トークン使用率が約60\%削減され、コスト効率が向上する。
これらの結果は、特にエッジデバイスや商用APIアプリケーションのようなリソース制約のある設定において、信頼性に基づくモデル選択が現実のLLMデプロイメントを強化する可能性を示唆している。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Semantic Agreement Enables Efficient Open-Ended LLM Cascades [18.119677655287607]
カスケードシステムは、可能な限り小さなモデルに計算要求をルーティングし、必要な時にのみ大きなモデルに遅延する。
我々は,信頼度の高い推論のための訓練自由信号として意味的合意を提案する。
セマンティックカスケードは、40%のコストでターゲットモデル品質に適合または超過し、最大60%のレイテンシを削減している。
論文 参考訳(メタデータ) (2025-09-26T03:51:28Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。