論文の概要: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11811v3
- Date: Tue, 20 May 2025 13:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.800514
- Title: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models
- Title(参考訳): FineFilter: 検索型大規模言語モデルのためのきめ細かいノイズフィルタリング機構
- Authors: Qianchi Zhang, Hainan Zhang, Liang Pang, Ziwei Wang, Hongwei Zheng, Yongxin Tong, Zhiming Zheng,
- Abstract要約: FineFilterはRetrieval-Augmented Generationのための新しいきめ細かいノイズフィルタリング機構である。
3つのQAデータセットの実験では、FinFilterはLLaMA3とMistralのベースラインよりもQAパフォーマンスを著しく改善している。
- 参考スコア(独自算出の注目度): 26.587312374992642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieved documents containing noise will hinder Retrieval-Augmented Generation (RAG) from detecting answer clues, necessitating noise filtering mechanisms to enhance accuracy. Existing methods use reranking or summarization to identify the most relevant sentences, but directly and accurately locating answer clues from these large-scale and complex documents remains challenging. Unlike these document-level operations, we treat noise filtering as a sentence-level MinMax optimization problem: first identifying potential clues from multiple documents, then ranking them by relevance, and finally retaining the minimum number of clues through truncation. In this paper, we propose FineFilter, a novel fine-grained noise filtering mechanism for RAG, consisting of a clue extractor, a reranker, and a truncator. We optimize each module to tackle complex reasoning challenges: (1) The clue extractor first uses sentences containing the answer and similar ones as fine-tuning targets, aiming to extract sufficient potential clues; (2) The reranker is trained to prioritize effective clues based on the real feedback from the generation module, with clues capable of generating correct answers as positive samples and others as negative; (3) The truncator takes the minimum number of clues needed to answer the question (truncation point) as fine-tuning targets, and performs truncation on the reranked clues to achieve fine-grained noise filtering. Experiments on three QA datasets demonstrate that FineFilter significantly improves QA performance over baselines on both LLaMA3 and Mistral. Further analysis confirms its effectiveness in complex reasoning, robustness to unreliable retrieval, and generalization to different scenarios.
- Abstract(参考訳): ノイズを含む検索された文書は、答えの手がかり、ノイズフィルタリング機構を検知し、精度を高めるためにRAG(Retrieval-Augmented Generation)を阻害する。
既存の手法では、最も関連性の高い文を特定するために、再分類や要約が用いられているが、これらの大規模で複雑な文書から、直接的かつ正確に答えの手がかりを見つけることは困難である。
これらの文書レベルの操作と異なり、ノイズフィルタリングを文レベルのMinMax最適化問題として扱い、まず複数の文書から潜在的な手がかりを特定し、関連性によってそれらをランク付けし、最後に切り離しによる最小の手がかり数を保持する。
本稿では,手掛かり抽出器,リランカ,トランクレータからなるRAGのための新しいきめ細かいノイズフィルタリング機構であるFineFilterを提案する。
1) 手がかり抽出器は,まず答と類似の文を微調整対象として使用し,十分な潜在的な手がかりを抽出すること,(2) 再帰者は生成モジュールからの真のフィードバックに基づいて効果的な手がかりを優先するように訓練され,正のサンプルとして正の回答を生成できる手がかりを負として生成モジュールから抽出する,(3) トランケータは細調整対象として質問に答えるために必要な手がかりの最小数(切り抜き点)を抽出し,再帰的ヒントをトランケートして微細化雑音フィルタリングを実現する,といった複雑な推論課題に対処する。
3つのQAデータセットの実験では、FinFilterはLLaMA3とMistralのベースラインよりもQAパフォーマンスを著しく改善している。
さらなる分析により、複雑な推論、信頼できない検索に対する堅牢性、そして異なるシナリオへの一般化におけるその有効性が確認される。
関連論文リスト
- Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Bridging Relevance and Reasoning: Rationale Distillation in Retrieval-Augmented Generation [43.50677378728461]
本稿では,Rationale DistillatiOnを用いた新規かつ実用的な嗜好アライメントフレームワークであるRADIOを提案する。
まず,Large Language Models (LLMs) の推論能力を活用して,問合せに要する有理を抽出する理性抽出手法を提案する。
その後、抽出された有理性に基づいて文書を再引用する合理性に基づくアライメントプロセスが設計され、その選好を調整するために再帰者を微調整する。
論文 参考訳(メタデータ) (2024-12-11T16:32:41Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Graph Anomaly Detection with Noisy Labels by Reinforcement Learning [13.135788402192215]
本稿では,新しいフレームワークREGAD,すなわちReinforced Graph Anomaly Detectorを提案する。
具体的には,高信頼ラベルを用いたノード間を近似したノイズエッジを切断することにより,ベース検出器の性能向上(AUC)を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-07-08T13:41:21Z) - Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文 参考訳(メタデータ) (2024-07-01T15:53:29Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。