論文の概要: Parametric Retrieval-Augmented Generation using Latent Routing of LoRA Adapters
- arxiv url: http://arxiv.org/abs/2511.17044v1
- Date: Fri, 21 Nov 2025 08:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.941521
- Title: Parametric Retrieval-Augmented Generation using Latent Routing of LoRA Adapters
- Title(参考訳): LoRAアダプタの潜時ルーティングを用いたパラメトリック検索拡張生成
- Authors: Zhan Su, Fengran Mo, Jian-yun Nie,
- Abstract要約: Parametric Retrieval-Augmented Generation (PRAG)は、外部知識を直接Large Language Model (LLM)に統合する。
現在のPRAGアプローチでは、個々のドキュメントに専用のLoRAアダプタを使用して、textbfone-to-oneドキュメントエンコーディング方式を採用している。
本稿では,潜在経路符号化プロセスを利用するPRAGにおける経路の符号化のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 27.694134466842502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parametric Retrieval-Augmented Generation (PRAG) is a novel RAG paradigm that integrates external knowledge directly into a Large Language Model (LLM) by parameterizing documents using LoRA adapters, demonstrating reduced inference costs compared to traditional RAG approaches. However, current PRAG approaches adopt a \textbf{one-to-one} document encoding scheme, using a dedicated LoRA adapter for each individual document. This scheme introduces two major limitations: First, it leads to data scarcity, as the training datasets for individual LoRA adapters are limited. Second, it incurs high overhead during inference, requiring the merging of LLM weights with a new LoRA adapter for every candidate passage, which is computationally inefficient. To overcome these challenges, we propose a novel paradigm for encoding passages in PRAG that utilizes a latent routing encoding process (Poly-PRAG). During offline encoding, we treat the encoding of a set of documents as a multi-task learning process, where each passage is assigned a unique task identifier. By employing a routing function, we use a small set of latent LoRA adapters to encode the entire passage space. During online inference, this routing function selectively activates a subset of latent experts based on the input query. We conduct comprehensive evaluations of Poly-PRAG across multiple knowledge-intensive NLP tasks. Our extensive experiments demonstrate the effectiveness of the proposed method, achieving state-of-the-art results on four distinct datasets.
- Abstract(参考訳): Parametric Retrieval-Augmented Generation (PRAG)は、LLM(Large Language Model)に直接外部知識を統合する新しいRAGパラダイムである。
しかし、現在のPRAGアプローチでは、個々の文書に対して専用のLoRAアダプタを使用して、textbf{one-to-one}ドキュメントエンコーディング方式を採用している。
まず、個々のLoRAアダプタのトレーニングデータセットが制限されているため、データの不足につながる。
第二に、推論中に高いオーバーヘッドを発生させ、LLM重みを新しいLoRAアダプタにマージする必要があるが、これは計算的に非効率である。
これらの課題を克服するために、潜時ルーティング符号化プロセス(Poly-PRAG)を利用したPRAGのパスを符号化する新しいパラダイムを提案する。
オフラインのエンコーディングでは、文書の集合のエンコーディングをマルチタスク学習プロセスとして扱い、各パスにはユニークなタスク識別子が割り当てられる。
ルーティング関数を用いることで、パス空間全体をエンコードするために、潜在LoRAアダプタの小さなセットを使用する。
オンライン推論では、このルーティング関数は入力クエリに基づいて潜在専門家のサブセットを選択的に活性化する。
複数の知識集約型NLPタスクに対して,Poly-PRAGの総合評価を行う。
提案手法の有効性を実験的に検証し、4つの異なるデータセットに対して最先端の結果を得る。
関連論文リスト
- MeTA-LoRA: Data-Efficient Multi-Task Fine-Tuning for Large Language Models [19.55984142351919]
マルチタスク適応におけるデータ効率を大幅に向上する2段階最適化フレームワークであるMeTA-LoRAを紹介する。
マルチタスク学習と多言語学習の両方のシナリオにおいて、我々の手法は従来の全データLoRAファインチューニング手法の性能と一致するか、上回っている。
論文 参考訳(メタデータ) (2025-10-13T16:37:40Z) - SEQR: Secure and Efficient QR-based LoRA Routing [53.52716967527183]
Low-Rank Adaptation (LoRA) は,大規模言語モデルのパラメータ効率向上のための標準手法となっている。
与えられた入力に対して適切なLoRAアダプタを効果的に選択することは依然として困難である。
厳密なルーティング保証を提供しながら効率を最大化するために設計された、教師なしのLoRAルーティングアルゴリズムであるSEQRを導入する。
論文 参考訳(メタデータ) (2025-09-22T17:59:38Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization [64.33914369424494]
RoleRAGは、ロール固有のトークン最適化を通じて効率的なマルチタスク処理を実現する統一的なRAGフレームワークである。
RoleRAGは6つのモジュールから構成され、それぞれがRAGプロセス内で特定のサブタスクを処理する。
クエリの分解を表すクエリグラフを導入し、分解状態に応じて動的に解決する。
論文 参考訳(メタデータ) (2025-05-21T12:25:12Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。
モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。
ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。