論文の概要: Cost-Aware Contrastive Routing for LLMs
- arxiv url: http://arxiv.org/abs/2508.12491v1
- Date: Sun, 17 Aug 2025 20:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.800677
- Title: Cost-Aware Contrastive Routing for LLMs
- Title(参考訳): LLMのコスト・アウェア・コントラスト・ルーティング
- Authors: Reza Shirkavand, Shangqian Gao, Peiran Yu, Heng Huang,
- Abstract要約: 我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
- 参考スコア(独自算出の注目度): 56.94921736486255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study cost-aware routing for large language models across diverse and dynamic pools of models. Existing approaches often overlook prompt-specific context, rely on expensive model profiling, assume a fixed set of experts, or use inefficient trial-and-error strategies. We introduce Cost-Spectrum Contrastive Routing (CSCR), a lightweight framework that maps both prompts and models into a shared embedding space to enable fast, cost-sensitive selection. CSCR uses compact, fast-to-compute logit footprints for open-source models and perplexity fingerprints for black-box APIs. A contrastive encoder is trained to favor the cheapest accurate expert within adaptive cost bands. At inference time, routing reduces to a single k-NN lookup via a FAISS index, requiring no retraining when the expert pool changes and enabling microsecond latency. Across multiple benchmarks, CSCR consistently outperforms baselines, improving the accuracy-cost tradeoff by up to 25%, while generalizing robustly to unseen LLMs and out-of-distribution prompts.
- Abstract(参考訳): 多様なモデルと動的モデルのプールにまたがる大規模言語モデルのコストアウェアルーティングについて検討する。
既存のアプローチは、しばしばプロンプト固有のコンテキストを見落とし、高価なモデルプロファイリングに依存し、専門家の固定されたセットを仮定するか、非効率的なトライアル・アンド・エラー戦略を使用する。
CSCR(Cost-Spectrum Contrastive Routing)は、プロンプトとモデルの両方を共有埋め込み空間にマッピングし、高速でコストに敏感な選択を可能にする軽量フレームワークである。
CSCRはオープンソースモデルにコンパクトで高速に計算可能なロジットフットプリントとブラックボックスAPIにパープレキシティ指紋を使用する。
コントラストエンコーダは、適応コスト帯の中で最も安価で正確な専門家を選ばせるように訓練される。
推論時には、ルーティングはFAISSインデックスを介して単一のk-NNルックアップに縮小され、エキスパートプールが変更されてマイクロ秒レイテンシーが実現された場合に再トレーニングが不要になる。
複数のベンチマークにおいて、CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善し、未確認のLCMとアウト・オブ・ディストリビューションのプロンプトに頑健に一般化した。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context [19.447729423696096]
大規模な言語モデルは多くのタスクで優れていますが、デプロイ時に高い推論コストがかかります。
性能とコストのバランスをとるための有望な解決策はLLMルーティングであり、より小さなLLMと複雑なLLMに単純なクエリを誘導する。
そこで我々は,KG-RAGに最適化された新しい学習不要なルーティングフレームワークを提案し,プラグアンドプレイ方式で性能とコストを効果的にバランスさせる。
論文 参考訳(メタデータ) (2025-05-28T14:45:56Z) - syftr: Pareto-Optimal Generative AI [40.80352098169579]
syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文 参考訳(メタデータ) (2025-05-26T17:43:13Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。