論文の概要: Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection
- arxiv url: http://arxiv.org/abs/2605.10235v2
- Date: Tue, 12 May 2026 12:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.114177
- Title: Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection
- Title(参考訳): 検索前の経路:RAGと長期選択のためのLCMの遅延ルーティング能力の活性化
- Authors: Yiwen Chen, Kuan Li, Fuzhen Zhuang, Deqing Wang, Zhao Zhang, Liwen Zhang, Yong Jiang, Shuai Wang, Minhao Cheng,
- Abstract要約: Pre-Routeは、応答前に構造化推論を実行するプロアクティブなルーティングフレームワークである。
本研究は, (i) LLMは, ガイドラインを確実に適用可能な遅延ルーティング能力を有すること, (ii) 線形プローブにより, 表現空間における最適ルーティングの分離性を高めること, (iii) 蒸留により, この推論構造を, 軽量展開のためのより小さなモデルに伝達すること,の3つの重要な知見を示す。
- 参考スコア(独自算出の注目度): 57.3886742625188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have expanded the context window to beyond 128K tokens, enabling long-document understanding and multi-source reasoning. A key challenge, however, lies in choosing between retrieval-augmented generation (RAG) and long-context (LC) strategies: RAG is efficient but constrained by retrieval quality, while LC supports global reasoning at higher cost and with position sensitivity. Existing methods such as Self-Route adopt failure-driven fallback from RAG to LC, but remain passive, inefficient, and hard to interpret. We propose Pre-Route, a proactive routing framework that performs structured reasoning before answering. Using lightweight metadata (e.g., document type, length, initial snippet), Pre-Route enables task analysis, coverage estimation, and information-need prediction, producing explainable and cost-efficient routing decisions. Our study shows three key findings: (i) LLMs possess latent routing ability that can be reliably elicited with guidelines, allowing single-sample performance to approach that of multi-sample (Best-of-N) results; (ii) linear probes reveal that structured prompts sharpen the separability of the "optimal routing dimension" in representation space; and (iii) distillation transfers this reasoning structure to smaller models for lightweight deployment. Experiments on LaRA (in-domain) and LongBench-v2 (OOD) confirm that Pre-Route outperforms Always-RAG, Always-LC, and Self-Route baselines, achieving superior overall cost-effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、コンテキストウィンドウを128Kトークンを超えて拡張し、長期文書理解とマルチソース推論を可能にした。
しかし、重要な課題は、検索強化世代(RAG)と長期コンテキスト(LC)戦略のどちらを選択するかである。
Self-Routeのような既存の手法では、RAGからLCへの障害駆動のフォールバックが採用されているが、受動的で非効率で解釈が難しい。
応答前に構造化推論を行うプロアクティブルーティングフレームワークであるPre-Routeを提案する。
軽量メタデータ(例:ドキュメントタイプ、長さ、初期スニペット)を使用することで、Pre-Routeはタスク分析、カバレッジ推定、情報に依存した予測を可能にし、説明可能な、コスト効率の高いルーティング決定を生成する。
私たちの研究は3つの重要な発見を示します。
i) LLMは、ガイドラインを確実に適用可能な遅延ルーティング機能を有しており、シングルサンプルのパフォーマンスがマルチサンプル(Best-of-N)結果に近づくことができる。
(II)線形プローブは、構造的プロンプトが表現空間における「最適経路次元」の分離性を鋭くすることを明らかにする。
三 蒸留は、この推論構造を軽量展開のためのより小さなモデルに伝達する。
LaRA(ドメイン内)とLongBench-v2(OOD)の実験は、Pre-RouteがAlways-RAG、Always-LC、Self-Routeベースラインより優れ、全体的なコスト効率が優れていることを確認した。
関連論文リスト
- RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。