論文の概要: Latent Abstraction for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2604.17866v1
- Date: Mon, 20 Apr 2026 06:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.728481
- Title: Latent Abstraction for Retrieval-Augmented Generation
- Title(参考訳): Retrieval-Augmented Generationのための潜在抽象化
- Authors: Ha Lan N. T, Minh-Anh Nguyen, Dung D. Le,
- Abstract要約: 既存のシステムは各ホップで自然言語クエリを生成することに依存している。
我々は,単一のLLMが符号化,検索,生成を同時に行う統一的なフレームワークである textbfLAnR (Latent Abstraction for RAG) を提案する。
- 参考スコア(独自算出の注目度): 4.6096940605642915
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a standard approach for enhancing large language models (LLMs) with external knowledge, mitigating hallucinations, and improving factuality. However, existing systems rely on generating natural language queries at each hop and maintaining a strict architectural separation between retriever and generator, preventing them from leveraging the full representational capacity of the LLM. We propose \textbf{LAnR} (Latent Abstraction for RAG), a unified framework in which a single LLM jointly performs encoding, retrieval, and generation entirely within its own latent space. Rather than generating textual queries, LAnR produces dense retrieval vectors from the hidden states of a designated \texttt{[PRED]} token and uses them to match against encoded document representations from the same model. Furthermore, LAnR adaptively decides when sufficient evidence has been retrieved using a lightweight MLP control head over those same hidden states, eliminating both the separate retriever and explicit token-level stopping reasoning. This design is motivated by our empirical observation that answer token entropy reliably signals retrieval sufficiency. Extensive experiments on six QA benchmarks spanning single-hop and multi-hop settings demonstrate that LAnR outperforms existing RAG methods, while achieving improved inference efficiency through reduced number of retrieval calls and tighter model integration.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)を外部知識で拡張し、幻覚を緩和し、事実性を改善するための標準的アプローチとなっている。
しかし、既存のシステムは各ホップで自然言語クエリを生成し、レトリバーとジェネレータの間の厳密なアーキテクチャ分離を維持することに依存しており、LLMの完全な表現能力を利用することができない。
本稿では、単一のLLMが共用して符号化、検索、生成を行う統合フレームワークである‘textbf{LAnR} (Latent Abstraction for RAG) を提案する。
テキストクエリを生成する代わりに、LAnRは指定された \texttt{[PRED]} トークンの隠れた状態から密度の高い検索ベクトルを生成し、それらを使用して同じモデルから符号化された文書表現とマッチングする。
さらに、LAnRは、これらの隠れた状態に対して軽量MLP制御ヘッドを使用して十分な証拠が回収された場合を適応的に決定し、分離されたレトリバーと明示的なトークンレベルの停止推論の両方を除去する。
この設計は、解答トークンのエントロピーが検索効率を確実に信号する経験的観察によって動機付けられている。
シングルホップとマルチホップ設定にまたがる6つのQAベンチマークの大規模な実験により、LAnRは既存のRAG法よりも優れ、検索回数の削減とモデル統合による推論効率の向上を実現している。
関連論文リスト
- Transforming External Knowledge into Triplets for Enhanced Retrieval in RAG of LLMs [55.78708003681562]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を、生成時に外部知識を取り入れることで緩和する。
既存のRAGアプローチは通常、コンテキストとしてテキストフラグメントを検索し、非構造化する。
本稿では,三重項に基づく検索フレームワークTri-RAGを提案する。
論文 参考訳(メタデータ) (2026-04-14T11:36:29Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。