論文の概要: LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG
- arxiv url: http://arxiv.org/abs/2605.06285v1
- Date: Thu, 07 May 2026 13:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.866843
- Title: LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG
- Title(参考訳): LatentRAG : 効率的なエージェントRAGの遅延推論と検索
- Authors: Yijia Zheng, Marcel Worring,
- Abstract要約: LatentRAGは、推論と検索の両方を独立した言語空間から連続的な潜在空間にシフトする新しいフレームワークである。
LatentRAGは、推論遅延を約90%削減しながら、明示的なエージェントRAGメソッドに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 13.420568360763227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-step retrieval-augmented generation (RAG) provides an efficient way to incorporate external information for simple question answering tasks but struggles with complex questions. Agentic RAG extends this paradigm by replacing single-step retrieval with a multi-step process, in which the large language model (LLM) acts as a search agent that generates intermediate thoughts and subqueries to iteratively interact with the retrieval system. This iterative process incurs substantial latency due to the autoregressive generation of lengthy thoughts and subqueries. To address this limitation, we propose LatentRAG, a novel framework that shifts both reasoning and retrieval from discrete language space to continuous latent space. Unlike existing explicit methods that generate natural language thoughts or subqueries token-by-token, LatentRAG produces latent tokens for thoughts and subqueries directly from the hidden states in a single forward pass. We align LLMs with dense retrieval models in the latent space, enabling retrieval over latent subquery tokens and supporting end-to-end joint optimization. To improve transparency and encourage semantically meaningful latent representations, we incorporate a parallel latent decoding mechanism that translates latent tokens back into natural language. Extensive experiments on seven benchmark datasets show that LatentRAG achieves performance comparable to explicit agentic RAG methods while reducing inference latency by approximately 90%, substantially narrowing the latency gap with traditional single-step RAG.
- Abstract(参考訳): 単一ステップ検索拡張生成(RAG)は、単純な質問応答タスクに外部情報を組み込むのに、複雑な質問に苦労する効率的な方法を提供する。
エージェントRAGはこのパラダイムを拡張し、単一ステップの検索を多段階のプロセスに置き換え、大きな言語モデル(LLM)が検索システムと反復的に対話する中間的な思考とサブクエリを生成するサーチエージェントとして機能する。
この反復的なプロセスは、長い思考とサブクエリの自己回帰生成によってかなりの遅延を引き起こす。
この制限に対処するために、離散言語空間から連続潜在空間へ推論と検索の両方を移行させる新しいフレームワークであるLatentRAGを提案する。
自然言語の思考やサブクエリのトークン・バイ・トークンを生成する既存の明示的なメソッドとは異なり、LatntRAGは単一の前方パスで隠された状態から直接、思考やサブクエリの潜在トークンを生成する。
我々はLLMを潜時空間の高密度検索モデルと整列し、潜時サブクエリートークンの検索を可能にし、エンドツーエンドのジョイント最適化をサポートする。
透過性を向上し,意味論的に意味のある潜在表現を促進するために,潜在トークンを自然言語に翻訳する並列潜在復号機構を組み込んだ。
7つのベンチマークデータセットに対する大規模な実験により、LatentRAGは明示的なエージェントRAGメソッドに匹敵するパフォーマンスを達成し、推論遅延を約90%削減し、従来の単一ステップRAGとのレイテンシギャップを大幅に縮小した。
関連論文リスト
- Latent Abstraction for Retrieval-Augmented Generation [4.6096940605642915]
既存のシステムは各ホップで自然言語クエリを生成することに依存している。
我々は,単一のLLMが符号化,検索,生成を同時に行う統一的なフレームワークである textbfLAnR (Latent Abstraction for RAG) を提案する。
論文 参考訳(メタデータ) (2026-04-20T06:26:13Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - M-RAG: Making RAG Faster, Stronger, and More Efficient [15.147969102210759]
大規模言語モデルのための新しいチャンクフリー検索戦略であるM-RAGを提案する。
M-RAGは構造化されたk-v分解メタマーカーを軽量で意図に整合した検索キーで抽出する。
M-RAGは高い効率で解答フレンドリーな証拠を回収できることを示す。
論文 参考訳(メタデータ) (2026-01-06T15:14:54Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。