論文の概要: Query Routing for Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2505.23052v1
- Date: Thu, 29 May 2025 03:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.661043
- Title: Query Routing for Retrieval-Augmented Language Models
- Title(参考訳): 検索言語モデルのためのクエリルーティング
- Authors: Jiarui Zhang, Xiangyu Liu, Yong Hu, Chaoyue Niu, Fan Wu, Guihai Chen,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
- 参考スコア(独自算出の注目度): 38.05904245087491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) significantly improves the performance of Large Language Models (LLMs) on knowledge-intensive tasks. However, varying response quality across LLMs under RAG necessitates intelligent routing mechanisms, which select the most suitable model for each query from multiple retrieval-augmented LLMs via a dedicated router model. We observe that external documents dynamically affect LLMs' ability to answer queries, while existing routing methods, which rely on static parametric knowledge representations, exhibit suboptimal performance in RAG scenarios. To address this, we formally define the new retrieval-augmented LLM routing problem, incorporating the influence of retrieved documents into the routing framework. We propose RAGRouter, a RAG-aware routing design, which leverages document embeddings and RAG capability embeddings with contrastive learning to capture knowledge representation shifts and enable informed routing decisions. Extensive experiments on diverse knowledge-intensive tasks and retrieval settings show that RAGRouter outperforms the best individual LLM by 3.61% on average and existing routing methods by 3.29%-9.33%. With an extended score-threshold-based mechanism, it also achieves strong performance-efficiency trade-offs under low-latency constraints.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、知識集約タスクにおける大規模言語モデル(LLM)の性能を大幅に向上させる。
しかし、RAGの下でのLLM間の応答品質の変化にはインテリジェントなルーティング機構が必要であり、専用のルータモデルを介して複数のLLMからクエリ毎に最適なモデルを選択する。
静的なパラメトリックな知識表現に依存する既存のルーティング手法では,RAGのシナリオでは,外部文書がLLMのクエリ応答能力に動的に影響を及ぼす。
そこで我々は,新たなLLMルーティング問題を正式に定義し,検索した文書の影響をルーティングフレームワークに取り入れた。
本稿では,RAGRouterを提案する。RAGRouterはRAGRouterであり,RAGRouterは文書の埋め込みとRAG機能の埋め込みを利用して知識表現のシフトを捕捉し,情報的なルーティング決定を可能にする。
多様な知識集約的なタスクと検索設定に関する大規模な実験では、RAGRouterは平均3.61%、既存のルーティング手法では3.29%-9.33%で最高のLLMを上回っている。
スコアスレッショルドベースのメカニズムを拡張することにより、低レイテンシ制約下での強力なパフォーマンス効率トレードオフを実現する。
関連論文リスト
- Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - GraphRouter: A Graph-based Router for LLM Selections [13.463815950807874]
我々は,Large Language Models (LLMs) の選択を強化するため,グラフと呼ばれる新しい帰納的グラフフレームワークを導入する。
エッジ予測メカニズムを通じて、グラフは潜在的なエッジの属性(LLM応答の効果とコスト)を予測でき、最適化された推奨が可能になる。
実験では、Graphは既存のルータを大幅に上回り、12.3%の最小パフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-04T18:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。