論文の概要: CARGO: A Framework for Confidence-Aware Routing of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14899v1
- Date: Thu, 18 Sep 2025 12:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.209095
- Title: CARGO: A Framework for Confidence-Aware Routing of Large Language Models
- Title(参考訳): CARGO: 大規模言語モデルの信頼性を考慮したルーティングフレームワーク
- Authors: Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami,
- Abstract要約: CARGOは動的大規模言語モデル(LLM)選択のための軽量で信頼性に配慮したフレームワークである。
CARGOは、LLM-judgedペアワイド比較に基づいて訓練された単一の埋め込みベースの回帰器を用いて、モデル性能を予測する。
CARGOは76.4%でトップ1のルーティング精度を達成し、個々の専門家に対して72%から89%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 6.002503434201551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) proliferate in scale, specialization, and latency profiles, the challenge of routing user prompts to the most appropriate model has become increasingly critical for balancing performance and cost. We introduce CARGO (Category-Aware Routing with Gap-based Optimization), a lightweight, confidence-aware framework for dynamic LLM selection. CARGO employs a single embedding-based regressor trained on LLM-judged pairwise comparisons to predict model performance, with an optional binary classifier invoked when predictions are uncertain. This two-stage design enables precise, cost-aware routing without the need for human-annotated supervision. To capture domain-specific behavior, CARGO also supports category-specific regressors trained across five task groups: mathematics, coding, reasoning, summarization, and creative writing. Evaluated on four competitive LLMs (GPT-4o, Claude 3.5 Sonnet, DeepSeek V3, and Perplexity Sonar), CARGO achieves a top-1 routing accuracy of 76.4% and win rates ranging from 72% to 89% against individual experts. These results demonstrate that confidence-guided, lightweight routing can achieve expert-level performance with minimal overhead, offering a practical solution for real-world, multi-model LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模化、特殊化、レイテンシプロファイルの増大に伴い、ユーザを最も適切なモデルにルーティングするという課題は、パフォーマンスとコストのバランスをとる上でますます重要になっている。
CARGO(Category-Aware Routing with Gap-based Optimization)は,動的LLM選択のための軽量で信頼性の高いフレームワークである。
CARGOは、LLM-judgedペアワイド比較に基づいてトレーニングされた単一の埋め込みベースの回帰器を用いてモデル性能を予測し、予測が不確実な場合にはオプションのバイナリ分類器を起動する。
この2段階の設計は、人手による監視を必要とせずに、正確でコストを意識したルーティングを可能にする。
ドメイン固有の振る舞いをキャプチャするために、CARGOは5つのタスクグループ(数学、コーディング、推論、要約、創造的記述)で訓練されたカテゴリ固有の回帰器もサポートする。
4つの競合LLM(GPT-4o、Claude 3.5 Sonnet、DeepSeek V3、Perplexity Sonar)で評価され、CARGOはトップ1のルーティング精度76.4%、勝利率は個々の専門家に対して72%から89%である。
これらの結果から,信頼性に配慮した軽量なルーティングは,最小限のオーバーヘッドで専門家レベルのパフォーマンスを実現し,現実のマルチモデルLCMデプロイメントに実用的なソリューションを提供することができた。
関連論文リスト
- Meta-Sel: Efficient Demonstration Selection for In-Context Learning via Supervised Meta-Learning [9.851186633544975]
目的分類のための軽量な教師付きメタ学習手法であるMeta-Selを提案する。
ラベル付きトレーニングデータから(候補、クエリ)ペアの高速で解釈可能なスコアリング関数を学習する。
推測時、セレクタは全候補プール上で1つのベクトル化スコアを実行し、トップkのデモを返す。
論文 参考訳(メタデータ) (2026-02-12T16:11:29Z) - Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models [0.0]
大規模言語モデル(LLM)は平均年齢のパフォーマンスは高いが、インスタンスレベルでは信頼性が低い。
本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。
このシステムは、自然言語の応答をセマンティックな埋め込み、ペアの類似性とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の事前情報を用いて構造化された特徴にマッピングする。
論文 参考訳(メタデータ) (2026-01-12T06:27:06Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder [54.31950189922548]
リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。
Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。
SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-11T06:51:56Z) - Leveraging the Power of Large Language Models in Entity Linking via Adaptive Routing and Targeted Reasoning [4.338036373287262]
ARTERは、深い微調整なしで高性能を実現する構造化パイプラインを提供する。
これは、候補生成、コンテキストベースのスコアリング、適応ルーティング、選択推論を戦略的に組み合わせている。
標準ベンチマークでは、ARTERはReFinEDを最大4.47%上回り、6つのデータセットのうち5つで平均2.53%上昇している。
論文 参考訳(メタデータ) (2025-10-23T00:50:14Z) - TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model [21.82904448561646]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
Best-of-N選択パラダイムは、複数の独立に生成された推論軌道から選択することで、スケーラブルなパフォーマンス改善をもたらす。
プロセスレベルのスコアリングのために,サンプルLLMの隠れ状態を利用する,効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介した。
論文 参考訳(メタデータ) (2025-10-18T11:01:39Z) - Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文 参考訳(メタデータ) (2025-10-17T16:53:09Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。