論文の概要: Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space
- arxiv url: http://arxiv.org/abs/2601.06220v1
- Date: Fri, 09 Jan 2026 04:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.690726
- Title: Breaking Model Lock-in: Cost-Efficient Zero-Shot LLM Routing via a Universal Latent Space
- Title(参考訳): ブレーキングモデルロックイン: ユニバーサル潜在空間を経由したコスト効率の良いゼロショットLCMルーティング
- Authors: Cheng Yan, Wuyang Zhang, Zhiyuan Ning, Fan Xu, Ziyang Tao, Lu Zhang, Bing Yin, Yanyong Zhang,
- Abstract要約: 現在のルーティングフレームワークは、徹底的でコストのかかるリトレーニングを必要とし、スケーラビリティと適応性を妨げる。
我々は、このロックインを壊すLSMルーティングの新しいパラダイムであるZeroを紹介します。
提案手法は,モデルのプロファイリングからクエリの特徴を根本的に分離する,クエリの難しさのモデルに依存しない表現である。
- 参考スコア(独自算出の注目度): 30.65360400232171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of Large Language Models (LLMs) has led to a fragmented and inefficient ecosystem, a state of ``model lock-in'' where seamlessly integrating novel models remains a significant bottleneck. Current routing frameworks require exhaustive, costly retraining, hindering scalability and adaptability. We introduce ZeroRouter, a new paradigm for LLM routing that breaks this lock-in. Our approach is founded on a universal latent space, a model-agnostic representation of query difficulty that fundamentally decouples the characterization of a query from the profiling of a model. This allows for zero-shot onboarding of new models without full-scale retraining. ZeroRouter features a context-aware predictor that maps queries to this universal space and a dual-mode optimizer that balances accuracy, cost, and latency. Our framework consistently outperforms all baselines, delivering higher accuracy at lower cost and latency.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及により、断片的で非効率なエコシステムが生まれました。
現在のルーティングフレームワークは、徹底的でコストのかかるリトレーニングを必要とし、スケーラビリティと適応性を妨げる。
我々は、このロックインを壊すLSMルーティングの新しいパラダイムであるZeroRouterを紹介します。
提案手法は,モデルのプロファイリングからクエリの特徴を根本的に分離する,クエリの難しさのモデルに依存しない表現である。
これにより、フルスケールの再トレーニングなしで、新しいモデルのゼロショットオンボーディングが可能になる。
ZeroRouterは、クエリをこの普遍的な空間にマッピングするコンテキスト認識予測器と、精度、コスト、レイテンシのバランスをとるデュアルモードオプティマイザを備えている。
当社のフレームワークは,すべてのベースラインを一貫して上回り,低コストで高い精度でレイテンシを実現しています。
関連論文リスト
- Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning [20.41220110321494]
コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
論文 参考訳(メタデータ) (2025-11-09T02:33:08Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Keeping Up with the Models: Online Deployment and Routing of LLMs at Scale [6.911384287238722]
次段のモデルに対して最大$M_max$のモデルを選択する階層的アルゴリズムを,報酬高信頼と低コスト低信頼境界を用いて提案する。
ここで,StageRoute が次数$T2/3$ の後悔を達成し,一致した下界を提供し,ほぼ最適性を確立することを証明した。
論文 参考訳(メタデータ) (2025-06-08T12:25:26Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。