論文の概要: CARGO: A Framework for Confidence-Aware Routing of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14899v1
- Date: Thu, 18 Sep 2025 12:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.209095
- Title: CARGO: A Framework for Confidence-Aware Routing of Large Language Models
- Title(参考訳): CARGO: 大規模言語モデルの信頼性を考慮したルーティングフレームワーク
- Authors: Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami,
- Abstract要約: CARGOは動的大規模言語モデル(LLM)選択のための軽量で信頼性に配慮したフレームワークである。
CARGOは、LLM-judgedペアワイド比較に基づいて訓練された単一の埋め込みベースの回帰器を用いて、モデル性能を予測する。
CARGOは76.4%でトップ1のルーティング精度を達成し、個々の専門家に対して72%から89%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 6.002503434201551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) proliferate in scale, specialization, and latency profiles, the challenge of routing user prompts to the most appropriate model has become increasingly critical for balancing performance and cost. We introduce CARGO (Category-Aware Routing with Gap-based Optimization), a lightweight, confidence-aware framework for dynamic LLM selection. CARGO employs a single embedding-based regressor trained on LLM-judged pairwise comparisons to predict model performance, with an optional binary classifier invoked when predictions are uncertain. This two-stage design enables precise, cost-aware routing without the need for human-annotated supervision. To capture domain-specific behavior, CARGO also supports category-specific regressors trained across five task groups: mathematics, coding, reasoning, summarization, and creative writing. Evaluated on four competitive LLMs (GPT-4o, Claude 3.5 Sonnet, DeepSeek V3, and Perplexity Sonar), CARGO achieves a top-1 routing accuracy of 76.4% and win rates ranging from 72% to 89% against individual experts. These results demonstrate that confidence-guided, lightweight routing can achieve expert-level performance with minimal overhead, offering a practical solution for real-world, multi-model LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模化、特殊化、レイテンシプロファイルの増大に伴い、ユーザを最も適切なモデルにルーティングするという課題は、パフォーマンスとコストのバランスをとる上でますます重要になっている。
CARGO(Category-Aware Routing with Gap-based Optimization)は,動的LLM選択のための軽量で信頼性の高いフレームワークである。
CARGOは、LLM-judgedペアワイド比較に基づいてトレーニングされた単一の埋め込みベースの回帰器を用いてモデル性能を予測し、予測が不確実な場合にはオプションのバイナリ分類器を起動する。
この2段階の設計は、人手による監視を必要とせずに、正確でコストを意識したルーティングを可能にする。
ドメイン固有の振る舞いをキャプチャするために、CARGOは5つのタスクグループ(数学、コーディング、推論、要約、創造的記述)で訓練されたカテゴリ固有の回帰器もサポートする。
4つの競合LLM(GPT-4o、Claude 3.5 Sonnet、DeepSeek V3、Perplexity Sonar)で評価され、CARGOはトップ1のルーティング精度76.4%、勝利率は個々の専門家に対して72%から89%である。
これらの結果から,信頼性に配慮した軽量なルーティングは,最小限のオーバーヘッドで専門家レベルのパフォーマンスを実現し,現実のマルチモデルLCMデプロイメントに実用的なソリューションを提供することができた。
関連論文リスト
- Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。