論文の概要: Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.04700v1
- Date: Sat, 01 Nov 2025 20:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.534604
- Title: Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation
- Title(参考訳): チャフから小麦を分離する:再開発世代における多様性の低下
- Authors: Song Wang, Zihan Chen, Peng Wang, Zhepei Wei, Zhen Tan, Yu Meng, Cong Shen, Jundong Li,
- Abstract要約: WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。
WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。
ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
- 参考スコア(独自算出の注目度): 61.47019392413271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) by integrating external knowledge sources to address their limitations in accessing up-to-date or specialized information. A natural strategy to increase the likelihood of retrieving relevant information is to expand the number of retrieved documents. However, involving more documents could introduce significant noise, as many documents may be irrelevant or misleading, thereby reducing the overall accuracy of the generated responses. To overcome the challenge associated with handling a larger number of documents, we propose WinnowRAG, a novel RAG framework designed to systematically filter out noisy documents while preserving valuable content -- a process we refer to as winnowing. WinnowRAG operates in two stages: In Stage I, we perform query-aware clustering to group similar documents and form distinct topic clusters. Each cluster is assigned to an LLM agent for generating a unique answer. In Stage II, we perform winnowing, wherein a critic LLM evaluates the outputs of multiple agents and iteratively separates useful documents from noisy ones. To retain useful documents when discarding agents, we propose two strategic merging techniques to ensure that only relevant knowledge is used for generating the final response. Crucially, WinnowRAG is model-agnostic and does not require any model fine-tuning, making it easily adaptable to various tasks. Extensive experiments on various realistic datasets demonstrate the effectiveness of WinnowRAG over state-of-the-art baselines.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識ソースを統合して、最新の情報や専門情報にアクセスする際の制限に対処することによって、大規模言語モデル(LLM)を強化する。
関連情報を取得する可能性を高めるための自然な戦略は、検索された文書の数を増やすことである。
しかし、より多くの文書を巻き込むと、多くの文書が無関係あるいは誤解を招く可能性があるため、大きなノイズが発生する可能性があるため、生成したレスポンスの全体的な精度が低下する。
大量のドキュメントを扱う上での課題を克服するため、我々はWinnowRAGという新しいRAGフレームワークを提案します。
WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。
各クラスタは、ユニークな回答を生成するLLMエージェントに割り当てられる。
ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
エージェントを捨てる際に有用な文書を保持するために,最終応答を生成するために,関連する知識のみを使用することを確実にするための2つの戦略的マージ手法を提案する。
重要な点として、WinnowRAGはモデルに依存しないため、モデル微調整を一切必要とせず、様々なタスクに容易に適応できる。
様々な現実的なデータセットに対する大規模な実験は、最先端のベースラインに対するWinnowRAGの有効性を示す。
関連論文リスト
- Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - DMQR-RAG: Diverse Multi-Query Rewriting for RAG [26.518517678671376]
大きな言語モデルは、しばしば静的な知識と幻覚による課題に遭遇し、その信頼性を損なう。
DMQR-RAG(Diverse Multi-Query Rewriting framework)を導入し、RAGにおける文書検索と最終応答の両方の性能を改善する。
論文 参考訳(メタデータ) (2024-11-20T09:43:30Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文 参考訳(メタデータ) (2023-08-29T01:46:06Z) - Generator-Retriever-Generator Approach for Open-Domain Question Answering [18.950517545413813]
文書検索手法と大規模言語モデル(LLM)を組み合わせた新しい手法を提案する。
並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。
GRGは最先端のgenerator-then-readおよびrecovery-then-readパイプラインより優れている。
論文 参考訳(メタデータ) (2023-07-21T00:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。