Fugu-MT 論文翻訳(概要): Query Routing for Retrieval-Augmented Language Models

論文の概要: Query Routing for Retrieval-Augmented Language Models

arxiv url: http://arxiv.org/abs/2505.23052v1
Date: Thu, 29 May 2025 03:44:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.661043
Title: Query Routing for Retrieval-Augmented Language Models
Title（参考訳）: 検索言語モデルのためのクエリルーティング
Authors: Jiarui Zhang, Xiangyu Liu, Yong Hu, Chaoyue Niu, Fan Wu, Guihai Chen,
Abstract要約: Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
参考スコア（独自算出の注目度）: 38.05904245087491
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) significantly improves the performance of Large Language Models (LLMs) on knowledge-intensive tasks. However, varying response quality across LLMs under RAG necessitates intelligent routing mechanisms, which select the most suitable model for each query from multiple retrieval-augmented LLMs via a dedicated router model. We observe that external documents dynamically affect LLMs' ability to answer queries, while existing routing methods, which rely on static parametric knowledge representations, exhibit suboptimal performance in RAG scenarios. To address this, we formally define the new retrieval-augmented LLM routing problem, incorporating the influence of retrieved documents into the routing framework. We propose RAGRouter, a RAG-aware routing design, which leverages document embeddings and RAG capability embeddings with contrastive learning to capture knowledge representation shifts and enable informed routing decisions. Extensive experiments on diverse knowledge-intensive tasks and retrieval settings show that RAGRouter outperforms the best individual LLM by 3.61% on average and existing routing methods by 3.29%-9.33%. With an extended score-threshold-based mechanism, it also achieves strong performance-efficiency trade-offs under low-latency constraints.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、知識集約タスクにおける大規模言語モデル(LLM)の性能を大幅に向上させる。しかし、RAGの下でのLLM間の応答品質の変化にはインテリジェントなルーティング機構が必要であり、専用のルータモデルを介して複数のLLMからクエリ毎に最適なモデルを選択する。静的なパラメトリックな知識表現に依存する既存のルーティング手法では,RAGのシナリオでは,外部文書がLLMのクエリ応答能力に動的に影響を及ぼす。そこで我々は,新たなLLMルーティング問題を正式に定義し,検索した文書の影響をルーティングフレームワークに取り入れた。本稿では,RAGRouterを提案する。RAGRouterはRAGRouterであり,RAGRouterは文書の埋め込みとRAG機能の埋め込みを利用して知識表現のシフトを捕捉し,情報的なルーティング決定を可能にする。多様な知識集約的なタスクと検索設定に関する大規模な実験では、RAGRouterは平均3.61%、既存のルーティング手法では3.29%-9.33%で最高のLLMを上回っている。スコアスレッショルドベースのメカニズムを拡張することにより、低レイテンシ制約下での強力なパフォーマンス効率トレードオフを実現する。

関連論文リスト

RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。 SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-16T17:53:18Z)
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning [12.878608250420832]
マルチLLMルーティングとアグリゲーションを逐次決定プロセスとして定式化する強化学習フレームワークである textbf Generalization-R1 を提案する。学習を容易にするために,形式報酬と最終結果報酬と,性能とコストのバランスを最適化するための新たなコスト報酬からなる軽量なルールベース報酬を用いる。
論文参考訳（メタデータ） (2025-06-10T17:56:45Z)
RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [31.446419903916425]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。 RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文参考訳（メタデータ） (2025-06-04T12:16:41Z)
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory [26.39979967537193]
大規模言語モデル (LLM) は、幅広い自然言語タスクにおいて例外的な性能を示した。強力なモデルはより良い結果をもたらすが、より小さなモデルはよりコスト効率が良いが、能力は低い。ユーザクエリを最適なLLMに効率的にルーティングするマルチLLMルーティングフレームワークであるIRT-Merciを提案する。
論文参考訳（メタデータ） (2025-06-01T15:14:58Z)
Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。 R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文参考訳（メタデータ） (2025-05-28T08:17:57Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文参考訳（メタデータ） (2024-10-17T12:53:29Z)
GraphRouter: A Graph-based Router for LLM Selections [13.463815950807874]
我々は,Large Language Models (LLMs) の選択を強化するため,グラフと呼ばれる新しい帰納的グラフフレームワークを導入する。エッジ予測メカニズムを通じて、グラフは潜在的なエッジの属性(LLM応答の効果とコスト)を予測でき、最適化された推奨が可能になる。実験では、Graphは既存のルータを大幅に上回り、12.3%の最小パフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-04T18:02:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。