論文の概要: Tackling the Inherent Difficulty of Noise Filtering in RAG
- arxiv url: http://arxiv.org/abs/2601.01896v2
- Date: Tue, 06 Jan 2026 15:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.394033
- Title: Tackling the Inherent Difficulty of Noise Filtering in RAG
- Title(参考訳): RAGにおけるノイズフィルタリングの難しさに対処する
- Authors: Jingyu Liu, Jiaen Lin, Yong Liu,
- Abstract要約: Retrieval-Augmented Generation (RAG) はLarge Language Models (LLMs) の拡張手法として広く採用されている。
ノイズや無関係なドキュメントは、RAG中にしばしば導入され、パフォーマンスが低下し、幻覚的なアウトプットを引き起こします。
そこで本研究では,検索した文書に含まれる関連情報と無関係情報とを識別する能力を高めるために,新たな微調整手法を提案する。
- 参考スコア(独自算出の注目度): 12.625545442403329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a widely adopted approach to enhance Large Language Models (LLMs) by incorporating external knowledge and reducing hallucinations. However, noisy or irrelevant documents are often introduced during RAG, potentially degrading performance and even causing hallucinated outputs. While various methods have been proposed to filter out such noise, we argue that identifying irrelevant information from retrieved content is inherently difficult and limited number of transformer layers can hardly solve this. Consequently, retrievers fail to filter out irrelevant documents entirely. Therefore, LLMs must be robust against such noise, but we demonstrate that standard fine-tuning approaches are often ineffective in enabling the model to selectively utilize relevant information while ignoring irrelevant content due to the structural constraints of attention patterns. To address this, we propose a novel fine-tuning method designed to enhance the model's ability to distinguish between relevant and irrelevant information within retrieved documents. Extensive experiments across multiple benchmarks show that our approach significantly improves the robustness and performance of LLMs.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、外部知識を取り入れ、幻覚を減らし、Large Language Models (LLMs) を強化する手法として広く採用されている。
しかしながら、ノイズや無関係な文書はRAGの間にしばしば導入され、性能が低下し、幻覚的な出力を引き起こす。
このようなノイズを除去する様々な手法が提案されているが、検索されたコンテンツから無関係な情報を特定することは本質的に困難であり、トランスフォーマー層が限られているため、この問題は解決できないと論じている。
その結果、検索者は無関係な文書を完全にフィルタリングすることができない。
したがって、LCMはそのようなノイズに対して堅牢でなければならないが、標準的な微調整アプローチは、注意パターンの構造的制約により無関係な内容を無視しながら、関係する情報を選択的に活用することを可能にするために、しばしば非効率であることを示す。
そこで本研究では,検索した文書内の関連情報と非関連情報の識別能力を高めるために,新たな微調整手法を提案する。
複数のベンチマークで大規模な実験を行った結果,LLMの堅牢性と性能は大幅に向上した。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding [5.353135097018941]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) を外部の最新の情報に基盤付けるためのフレームワークである。
本稿では,適応型検索システムLDAR(Learning Distraction-Aware Retrieval)を提案する。
論文 参考訳(メタデータ) (2025-09-26T04:40:42Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [23.098551349745815]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。
我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-16T23:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。