論文の概要: Leveraging Uncertainty Estimation for Efficient LLM Routing
- arxiv url: http://arxiv.org/abs/2502.11021v1
- Date: Sun, 16 Feb 2025 07:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:06.520912
- Title: Leveraging Uncertainty Estimation for Efficient LLM Routing
- Title(参考訳): 効率的なLCMルーティングにおける不確かさ推定の活用
- Authors: Tuo Zhang, Asal Mehradfar, Dimitrios Dimitriadis, Salman Avestimehr,
- Abstract要約: エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットから人間の参照データまたは精度メトリクスをルーティング基準として優先順位付けしていた。
我々は、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
- 参考スコア(独自算出の注目度): 20.67188754368684
- License:
- Abstract: Deploying large language models (LLMs) in edge-cloud environments requires an efficient routing strategy to balance cost and response quality. Traditional approaches prioritize either human-preference data or accuracy metrics from benchmark datasets as routing criteria, but these methods suffer from rigidity and subjectivity. Moreover, existing routing frameworks primarily focus on accuracy and cost, neglecting response quality from a human preference perspective. In this work, we propose the Confidence-Driven LLM Router, a novel framework that leverages uncertainty estimation to optimize routing decisions. To comprehensively assess routing performance, we evaluate both system cost efficiency and response quality. In particular, we introduce the novel use of LLM-as-a-Judge to simulate human rating preferences, providing the first systematic assessment of response quality across different routing strategies. Extensive experiments on MT-Bench, GSM8K, and MMLU demonstrate that our approach outperforms state-of-the-art routing methods, achieving superior response quality while maintaining cost efficiency.
- Abstract(参考訳): エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットからの人間の参照データまたは精度メトリクスをルーティング基準として優先していたが、これらの手法は厳格さと主観性に悩まされていた。
さらに、既存のルーティングフレームワークは主に正確さとコストに重点を置いており、人間の好みの観点から応答品質を無視している。
本研究では、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
ルーティング性能を総合的に評価するために,システムコスト効率と応答品質を評価した。
特に,LLM-as-a-Judgeを人格評価の嗜好をシミュレートするための新しい利用法を導入し,異なる経路戦略における応答品質のシステマティックな評価を行った。
MT-Bench, GSM8K, MMLUの大規模実験により, 提案手法は最先端のルーティング手法より優れ, コスト効率を保ちながら応答品質が向上することを示した。
関連論文リスト
- Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - A Unified Approach to Routing and Cascading for LLMs [5.653106385738822]
様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。
既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。
我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。
本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
論文 参考訳(メタデータ) (2024-10-14T10:00:49Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Optimizing Inventory Routing: A Decision-Focused Learning Approach using
Neural Networks [0.0]
我々は、現実世界のIRPを解決するための意思決定に基づくアプローチを定式化し、提案する。
このアプローチは、在庫予測とルーティング最適化を直接エンドツーエンドシステムに統合することで、堅牢なサプライチェーン戦略を保証する可能性がある。
論文 参考訳(メタデータ) (2023-11-02T04:05:28Z) - Routing Arena: A Benchmark Suite for Neural Routing Solvers [8.158770689562672]
本稿では,一貫した評価のシームレスな統合と,機械学習とオペレーション研究の分野で広く普及しているベースラインとベンチマークの提供を提供する,ルーティング問題のためのベンチマークスイートを提案する。
総合的な第1の実験的な評価は、最新のオペレーショナル・リサーチ・ソルバが、車両のルーティング問題に関して、ソリューションの品質と実行効率の観点から、最先端の結果を生成することを示した。
論文 参考訳(メタデータ) (2023-10-06T10:24:33Z) - Fidelity-Guarantee Entanglement Routing in Quantum Networks [64.49733801962198]
絡み合いルーティングは、2つの任意のノード間のリモート絡み合い接続を確立する。
量子ネットワークにおける複数のソース・デスティネーション(SD)ペアの忠実性を保証するために、精製可能な絡み合わせルーティング設計を提案する。
論文 参考訳(メタデータ) (2021-11-15T14:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。