論文の概要: How Retrieved Context Shapes Internal Representations in RAG
- arxiv url: http://arxiv.org/abs/2602.20091v1
- Date: Mon, 23 Feb 2026 18:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.937613
- Title: How Retrieved Context Shapes Internal Representations in RAG
- Title(参考訳): RAGの内部表現をどう形作るか
- Authors: Samuel Yeh, Sharon Li,
- Abstract要約: 検索した文書の種類が大規模言語モデル(LLM)の隠れ状態に与える影響について検討する。
この結果から,LLMの出力動作とRAGシステム設計の知見が内部表現にどのように影響するかが明らかになった。
- 参考スコア(独自算出の注目度): 5.054172907906319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) by conditioning generation on retrieved external documents, but the effect of retrieved context is often non-trivial. In realistic retrieval settings, the retrieved document set often contains a mixture of documents that vary in relevance and usefulness. While prior work has largely examined these phenomena through output behavior, little is known about how retrieved context shapes the internal representations that mediate information integration in RAG. In this work, we study RAG through the lens of latent representations. We systematically analyze how different types of retrieved documents affect the hidden states of LLMs, and how these internal representation shifts relate to downstream generation behavior. Across four question-answering datasets and three LLMs, we analyze internal representations under controlled single- and multi-document settings. Our results reveal how context relevancy and layer-wise processing influence internal representations, providing explanations on LLMs output behaviors and insights for RAG system design.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、検索した外部文書に対する条件付き生成によって、大きな言語モデル(LLM)を強化するが、検索されたコンテキストの効果は、しばしば非自明である。
現実的な検索設定では、検索された文書セットは、関連性や有用性が異なる文書の混合を含むことが多い。
先行研究では、これらの現象を出力の振る舞いを通して概ね検討してきたが、検索した文脈が内部表現をどう形成し、RAGにおける情報統合を仲介するかはほとんど分かっていない。
本研究では、潜在表現のレンズを通してRAGを研究する。
検索した文書の種類がLLMの隠れ状態にどのように影響するかを系統的に分析し、これらの内部表現の変化が下流生成行動にどのように影響するかを考察する。
4つの問合せデータセットと3つのLLMに対して、制御された単一文書および複数文書設定の下で内部表現を解析する。
この結果から,LLMの出力動作とRAGシステム設計の知見が内部表現にどのように影響するかが明らかになった。
関連論文リスト
- Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias [1.7674345486888503]
Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。
標準的なRAGシステムは、関連する情報を見逃したり、意味的に無関係な経路を導入することができる固定トップk検索戦略に依存している。
本稿では,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
論文 参考訳(メタデータ) (2025-12-16T11:30:40Z) - Is Relevance Propagated from Retriever to Generator in RAG? [21.82171240511567]
RAGは外部知識を組み込むためのフレームワークであり、通常はコレクションから取得した文書の集合の形式である。
我々は、トポロジに関連のある文書からなるRAGコンテキストが下流の性能向上につながるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2025-02-20T20:21:46Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。