論文の概要: Leveraging Uncertainty Estimation for Efficient LLM Routing
- arxiv url: http://arxiv.org/abs/2502.11021v1
- Date: Sun, 16 Feb 2025 07:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:06.520912
- Title: Leveraging Uncertainty Estimation for Efficient LLM Routing
- Title(参考訳): 効率的なLCMルーティングにおける不確かさ推定の活用
- Authors: Tuo Zhang, Asal Mehradfar, Dimitrios Dimitriadis, Salman Avestimehr,
- Abstract要約: エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットから人間の参照データまたは精度メトリクスをルーティング基準として優先順位付けしていた。
我々は、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
- 参考スコア(独自算出の注目度): 20.67188754368684
- License:
- Abstract: Deploying large language models (LLMs) in edge-cloud environments requires an efficient routing strategy to balance cost and response quality. Traditional approaches prioritize either human-preference data or accuracy metrics from benchmark datasets as routing criteria, but these methods suffer from rigidity and subjectivity. Moreover, existing routing frameworks primarily focus on accuracy and cost, neglecting response quality from a human preference perspective. In this work, we propose the Confidence-Driven LLM Router, a novel framework that leverages uncertainty estimation to optimize routing decisions. To comprehensively assess routing performance, we evaluate both system cost efficiency and response quality. In particular, we introduce the novel use of LLM-as-a-Judge to simulate human rating preferences, providing the first systematic assessment of response quality across different routing strategies. Extensive experiments on MT-Bench, GSM8K, and MMLU demonstrate that our approach outperforms state-of-the-art routing methods, achieving superior response quality while maintaining cost efficiency.
- Abstract(参考訳): エッジクラウド環境に大規模言語モデル(LLM)をデプロイするには、コストとレスポンス品質のバランスをとるための効率的なルーティング戦略が必要である。
従来のアプローチでは、ベンチマークデータセットからの人間の参照データまたは精度メトリクスをルーティング基準として優先していたが、これらの手法は厳格さと主観性に悩まされていた。
さらに、既存のルーティングフレームワークは主に正確さとコストに重点を置いており、人間の好みの観点から応答品質を無視している。
本研究では、不確実性推定を利用してルーティング決定を最適化する新しいフレームワークである信頼性駆動型LLMルータを提案する。
ルーティング性能を総合的に評価するために,システムコスト効率と応答品質を評価した。
特に,LLM-as-a-Judgeを人格評価の嗜好をシミュレートするための新しい利用法を導入し,異なる経路戦略における応答品質のシステマティックな評価を行った。
MT-Bench, GSM8K, MMLUの大規模実験により, 提案手法は最先端のルーティング手法より優れ, コスト効率を保ちながら応答品質が向上することを示した。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Optimizing Inventory Routing: A Decision-Focused Learning Approach using
Neural Networks [0.0]
我々は、現実世界のIRPを解決するための意思決定に基づくアプローチを定式化し、提案する。
このアプローチは、在庫予測とルーティング最適化を直接エンドツーエンドシステムに統合することで、堅牢なサプライチェーン戦略を保証する可能性がある。
論文 参考訳(メタデータ) (2023-11-02T04:05:28Z) - Routing Arena: A Benchmark Suite for Neural Routing Solvers [8.158770689562672]
本稿では,一貫した評価のシームレスな統合と,機械学習とオペレーション研究の分野で広く普及しているベースラインとベンチマークの提供を提供する,ルーティング問題のためのベンチマークスイートを提案する。
総合的な第1の実験的な評価は、最新のオペレーショナル・リサーチ・ソルバが、車両のルーティング問題に関して、ソリューションの品質と実行効率の観点から、最先端の結果を生成することを示した。
論文 参考訳(メタデータ) (2023-10-06T10:24:33Z) - Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate
Optimization Problems [0.0]
コスト関数の広範囲な評価が高価で、アクセス不能、あるいは禁止されるシナリオにおいて、グローバルな最適化のための新しいアルゴリズムを導入する。
この手法はLandscape-Sketch-and-Step (LSS)と呼ばれ、機械学習、レプリカ最適化、強化学習技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-14T01:53:45Z) - Inverse Optimization for Routing Problems [3.282021317933024]
Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。
提案手法の柔軟性と実世界の可能性を示し,ルーティング問題における意思決定者の判断から学ぶ。
論文 参考訳(メタデータ) (2023-07-14T14:03:47Z) - Fidelity-Guarantee Entanglement Routing in Quantum Networks [64.49733801962198]
絡み合いルーティングは、2つの任意のノード間のリモート絡み合い接続を確立する。
量子ネットワークにおける複数のソース・デスティネーション(SD)ペアの忠実性を保証するために、精製可能な絡み合わせルーティング設計を提案する。
論文 参考訳(メタデータ) (2021-11-15T14:07:22Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。