論文の概要: InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering
- arxiv url: http://arxiv.org/abs/2509.12765v1
- Date: Tue, 16 Sep 2025 07:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.947199
- Title: InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering
- Title(参考訳): InfoGain-RAG: 文書情報ゲインに基づく検索・拡張生成の高速化とフィルタリング
- Authors: Zihan Wang, Zihan Liang, Zhou Shao, Yufei Ma, Huangyu Dai, Ben Chen, Lingtao Mao, Chenyi Lei, Yuqing Ding, Han Li,
- Abstract要約: Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の重要な限界に対処する,有望なアプローチとして登場した。
本稿では,検索した文書のコントリビューションを定量化し,回答生成の精度を高めるために,文書情報ゲイン(Document Information Gain, DIG)を提案する。
本稿では,DIGスコアを利用した特殊リランカの学習フレームワークInfoGain-RAGを紹介する。
- 参考スコア(独自算出の注目度): 17.346965728209394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a promising approach to address key limitations of Large Language Models (LLMs), such as hallucination, outdated knowledge, and lacking reference. However, current RAG frameworks often struggle with identifying whether retrieved documents meaningfully contribute to answer generation. This shortcoming makes it difficult to filter out irrelevant or even misleading content, which notably impacts the final performance. In this paper, we propose Document Information Gain (DIG), a novel metric designed to quantify the contribution of retrieved documents to correct answer generation. DIG measures a document's value by computing the difference of LLM's generation confidence with and without the document augmented. Further, we introduce InfoGain-RAG, a framework that leverages DIG scores to train a specialized reranker, which prioritizes each retrieved document from exact distinguishing and accurate sorting perspectives. This approach can effectively filter out irrelevant documents and select the most valuable ones for better answer generation. Extensive experiments across various models and benchmarks demonstrate that InfoGain-RAG can significantly outperform existing approaches, on both single and multiple retrievers paradigm. Specifically on NaturalQA, it achieves the improvements of 17.9%, 4.5%, 12.5% in exact match accuracy against naive RAG, self-reflective RAG and modern ranking-based RAG respectively, and even an average of 15.3% increment on advanced proprietary model GPT-4o across all datasets. These results demonstrate the feasibility of InfoGain-RAG as it can offer a reliable solution for RAG in multiple applications.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、幻覚、古い知識、参照の欠如など、Large Language Models (LLM) の重要な制限に対処するための有望なアプローチとして登場した。
しかしながら、現在のRAGフレームワークは、取得したドキュメントが回答生成に有意義な貢献をするかどうかを特定するのに苦労することが多い。
この欠点により、関係のないコンテンツや誤解を招くコンテンツのフィルタリングが難しくなり、最終的なパフォーマンスに特に影響を及ぼす。
本稿では,検索した文書のコントリビューションを定量化し,回答生成を正すための新しいメトリクスであるDocument Information Gain(DIG)を提案する。
DIG は LLM の生成信頼度と文書の増補の有無の差を計算することで文書の価値を測定する。
さらに、DIGスコアを利用した特殊リランカの訓練フレームワークであるInfoGain-RAGを導入する。
このアプローチは、無関係な文書を効果的にフィルタリングし、より優れた回答生成のために最も価値のある文書を選択することができる。
様々なモデルとベンチマークにわたる大規模な実験により、InfoGain-RAGはシングルおよびマルチレトリバーのパラダイムにおいて既存のアプローチを大幅に上回っていることが示された。
具体的には、NaturalQAでは、17.9%、4.5%、12.5%の正確なマッチング精度を、単純RAG(英語版)、自己反射RAG(英語版)、近代的なランキングベースRAG(英語版)に対して達成し、さらに全てのデータセットにわたる高度なプロプライエタリモデルGPT-4oに対する平均15.3%のインクリメントも達成している。
これらの結果はInfoGain-RAGが複数のアプリケーションでRAGに信頼性の高いソリューションを提供できることを示す。
関連論文リスト
- MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。
Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文 参考訳(メタデータ) (2024-07-17T05:50:32Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。