論文の概要: One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection
- arxiv url: http://arxiv.org/abs/2509.09782v1
- Date: Thu, 11 Sep 2025 18:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.890198
- Title: One Head, Many Models: Cross-Attention Routing for Cost-Aware LLM Selection
- Title(参考訳): 一つの頭と多くのモデル:コストを考慮したLCM選択のためのクロスアテンションルーティング
- Authors: Roshini Pulishetty, Mani Kishan Ghantasala, Keerthy Kaushik Dasoju, Niti Mangwani, Vishal Garimella, Aditya Mate, Somya Chatterjee, Yue Kang, Ehi Nosakhare, Sadid Hasan, Soundar Srinivasan,
- Abstract要約: 計算コストと性能プロファイルの異なる大規模言語モデル(LLM)は、現実世界のアプリケーションにスケーラブルでコスト効率の良いデプロイを実現する上で重要な課題である。
我々は、単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化する統一的なルーティングフレームワークを導入する。
我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
- 参考スコア(独自算出の注目度): 3.872690949369412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of large language models (LLMs) with varying computational costs and performance profiles presents a critical challenge for scalable, cost-effective deployment in real-world applications. We introduce a unified routing framework that leverages a single-head cross-attention mechanism to jointly model query and model embeddings, enabling dynamic selection of the optimal LLM for each input query. Our approach is evaluated on RouterBench, a large-scale, publicly available benchmark encompassing diverse LLM pools and domains. By explicitly capturing fine-grained query-model interactions, our router predicts both response quality and generation cost, achieving up to 6.6% improvement in Average Improvement in Quality (AIQ) and 2.9% in maximum performance over existing routers. To robustly balance performance and cost, we propose an exponential reward function that enhances stability across user preferences. The resulting architecture is lightweight, generalizes effectively across domains, and demonstrates improved efficiency compared to prior methods, establishing a new standard for cost-aware LLM routing.
- Abstract(参考訳): 計算コストと性能プロファイルの異なる大規模言語モデル(LLM)の普及は、現実世界のアプリケーションにスケーラブルで費用効率の良いデプロイを実現する上で重要な課題である。
単一ヘッドのクロスアテンション機構を利用して、クエリとモデル埋め込みを協調的にモデル化し、入力クエリ毎に最適なLLMを動的に選択できる統一的なルーティングフレームワークを提案する。
提案手法は, LLMプールやドメインを含む大規模かつ一般公開なベンチマークである RouterBench を用いて評価する。
我々のルータは、きめ細かいクエリモデル相互作用を明示的に把握することにより、応答品質と生成コストの両方を予測し、平均品質改善(AIQ)を6.6%改善し、既存のルータよりも最大性能を2.9%向上させる。
性能とコストのバランスをとるために,ユーザの嗜好の安定性を高める指数的報酬関数を提案する。
結果として得られたアーキテクチャは軽量で、ドメイン間で効果的に一般化され、従来の方法よりも効率が向上し、コストを意識したLSMルーティングのための新しい標準が確立される。
関連論文リスト
- Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference [37.57624773333661]
MoMA(Mixture of Models and Agents)は、大規模言語モデル(LLM)とエージェントベースのルーティングを統合するフレームワークである。
本稿では,異なるルーティングモデル構造下での各種LLMの能力を評価するためのトレーニングデータセットを提案する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
論文 参考訳(メタデータ) (2025-09-09T10:15:42Z) - LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。