論文の概要: Lookahead Routing for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.19506v1
- Date: Wed, 22 Oct 2025 12:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.750787
- Title: Lookahead Routing for Large Language Models
- Title(参考訳): 大規模言語モデルのためのルックアヘッドルーティング
- Authors: Canbin Huang, Tianyuan Shi, Yuhua Zhu, Ruijun Chen, Xiaojun Quan,
- Abstract要約: Lookaheadは、潜在的なモデル出力を"予測"し、これらの予測を使ってモデル選択をガイドするルーティングフレームワークである。
7つの公開ベンチマークに対する実証的な評価は、Lookaheadが既存のルーティングベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 24.082620717301477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) routers improve the efficiency of multi-model systems by directing each query to the most appropriate model while leveraging the diverse strengths of heterogeneous LLMs. Most existing approaches frame routing as a classification problem based solely on the input query. While this reduces overhead by avoiding inference across all models, it overlooks valuable information that could be gleaned from potential outputs and fails to capture implicit intent or contextual nuances that often emerge only during response generation. These limitations can result in suboptimal routing decisions, particularly for complex or ambiguous queries that require deeper semantic understanding. To address this challenge, we propose Lookahead, a routing framework that "foresees" potential model outputs by predicting their latent representations and uses these predictions to guide model selection, thus enabling more informed routing without full inference. Within this framework, we implement two approaches based on causal and masked language models. Empirical evaluations across seven public benchmarks - spanning instruction following, mathematical reasoning, and code generation - show that Lookahead consistently outperforms existing routing baselines, achieving an average performance gain of 7.7% over the state-of-the-art. Our code is available at https://github.com/huangcb01/lookahead-routing.
- Abstract(参考訳): 大規模言語モデル(LLM)ルータは、多種多様なLLMの長所を生かしながら、各クエリを最も適切なモデルに向けることで、マルチモデルシステムの効率を向上する。
既存のほとんどのアプローチでは、入力クエリのみに基づく分類問題としてフレームルーティングを採用している。
これにより、すべてのモデルに対する推論を避けることでオーバーヘッドを低減するが、潜在的な出力から切り離され、応答生成時にのみ発生する暗黙の意図やコンテキストのニュアンスをキャプチャできない貴重な情報を見落としてしまう。
これらの制限は、特に深いセマンティック理解を必要とする複雑なクエリやあいまいなクエリに対して、最適以下のルーティング決定をもたらす可能性がある。
この課題に対処するために、Lookaheadという、潜在表現を予測して潜在的モデル出力を"予測"するルーティングフレームワークを提案し、これらの予測を用いてモデル選択をガイドし、完全な推論なしでより情報的なルーティングを可能にする。
このフレームワークでは、因果関係とマスキング言語モデルに基づく2つのアプローチを実装している。
7つの公開ベンチマーク(命令追従、数学的推論、コード生成)に対する実証的な評価は、Lookaheadが既存のルーティングベースラインを一貫して上回り、最先端よりも平均パフォーマンスが7.7%向上していることを示している。
私たちのコードはhttps://github.com/huangcb01/lookahead-routing.comで利用可能です。
関連論文リスト
- ICL-Router: In-Context Learned Model Representations for LLM Routing [30.759446235510467]
本稿では,モデル機能を表現するために,コンテキスト内ベクトルを用いた新しいルーティング手法を提案する。
本手法は,分散処理とアウト・オブ・ディストリビューション処理の両方において,最先端のルーティング性能を実現する。
論文 参考訳(メタデータ) (2025-10-10T06:47:37Z) - Arch-Router: Aligning LLM Routing with Human Preferences [1.859931123372708]
ルーティングは、異なるモデルの使用を運用する上で不可欠な技術になっている。
本稿では、クエリをユーザ定義ドメインにマッチさせることで、モデル選択をガイドする、嗜好整合型ルーティングフレームワークを提案する。
我々のアプローチは主観評価基準を捉え、ルーティング決定をより透明で柔軟にする。
論文 参考訳(メタデータ) (2025-06-19T23:57:41Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - ORI: O Routing Intelligence [0.7493096930372414]
単一大規模言語モデル(LLM)は、成長を続けるタスクの範囲に直面すると、しばしば不足する。
我々は,一組のLLMを利用する動的フレームワークであるORI(O Routing Intelligence)を提案する。
クエリをインテリジェントにルーティングすることで、ORIはMMLUで最大2.7ポイント、MuSRで1.8ポイントという最強の個別モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-14T10:00:20Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Deep Model Reassembly [60.6531819328247]
我々はDeep Model Reassembly(DeRy)と呼ばれる新しい知識伝達タスクを探索する。
DeRyの目標は、まず各モデルを固有のビルディングブロックに分割し、それから派生したブロックを選択的に再組み立てて、カスタマイズされたネットワークを生成することである。
ImageNetでは、最高の再組み立てモデルは微調整なしで78.6%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-10-24T10:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。