論文の概要: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11811v1
- Date: Mon, 17 Feb 2025 13:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:19.878842
- Title: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models
- Title(参考訳): FineFilter: 検索型大規模言語モデルのためのきめ細かいノイズフィルタリング機構
- Authors: Qianchi Zhang, Hainan Zhang, Liang Pang, Hongwei Zheng, Yongxin Tong, Zhiming Zheng,
- Abstract要約: FineFilterはRetrieval-Augmented Generationのための新しいきめ細かいノイズフィルタリング機構である。
手がかり抽出器、再ランカ、およびトランケータから構成される。
3つのQAデータセットの実験では、FinFilterはパフォーマンスと推論コストの点でベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 24.14463939882959
- License:
- Abstract: Retrieved documents containing noise will hinder Retrieval-Augmented Generation (RAG) from detecting answer clues, necessitating noise filtering mechanisms to enhance accuracy.Existing methods use re-ranking or summarization to identify the most relevant sentences, but directly and accurately locating answer clues from these large-scale and complex documents remains challenging. Unlike these document-level operations, we treat noise filtering as a sentence-level MinMax optimization problem: first identifying the potential clues from multiple documents using contextual information, then ranking them by relevance, and finally retaining the least clues through truncation. In this paper, we propose FineFilter, a novel fine-grained noise filtering mechanism for RAG consisting of a clue extractor, a re-ranker, and a truncator. We optimize each module to tackle complex reasoning challenges: (1) Clue extractor firstly uses sentences containing the answer and similar ones as fine-tuned targets, aiming at extracting sufficient potential clues; (2) Re-ranker is trained to prioritize effective clues based on the real feedback from generation module, with clues capable of generating correct answer as positive samples and others as negative; (3) Truncator takes the minimum clues needed to answer the question (truncation point) as fine-tuned targets, and performs truncation on the re-ranked clues to achieve fine-grained noise filtering. Experiments on three QA datasets demonstrate that FineFilter significantly outperforms baselines in terms of performance and inference cost. Further analysis on each module shows the effectiveness of our optimizations for complex reasoning.
- Abstract(参考訳): ノイズを含む検索された文書は、解答手がかりの検出や、精度を高めるためにノイズフィルタリング機構を必要とせず、最も関連性の高い文を識別するために再ランク付けや要約を用いるが、これらの大規模で複雑な文書から直接的かつ正確に解答ヒントを抽出することは困難である。
これらの文書レベルの操作とは異なり、ノイズフィルタリングを文レベルのMinMax最適化問題として扱う。まず、コンテキスト情報を用いて複数の文書から潜在的な手がかりを識別し、関連性に基づいてそれらをランク付けし、最後にトランケーションを通して最小の手がかりを保持する。
本稿では,手掛かり抽出器,リランカ,トランケータからなるRAGのための新しいきめ細かいノイズフィルタリング機構であるFineFilterを提案する。
1) クルー抽出器は,まず,質問文と類似文を含む文を微調整対象として使用し,十分な潜在的な手がかりを抽出すること,(2) 再帰者は生成モジュールからの真のフィードバックに基づいて効果的な手がかりを優先するように訓練され,正のサンプルとして正の回答を生成できる手がかりを負として生成する,(3) トランケータは,質問文(トランケーションポイント)を微調整対象とし,再帰ヒントをトランケートして微細化ノイズフィルタリングを実現する,といった複雑な推論課題に対処する。
3つのQAデータセットの実験では、FinFilterはパフォーマンスと推論コストの点でベースラインを大幅に上回っている。
各モジュールのさらなる解析は、複素推論に対する最適化の有効性を示す。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - Graph Anomaly Detection with Noisy Labels by Reinforcement Learning [13.135788402192215]
本稿では,新しいフレームワークREGAD,すなわちReinforced Graph Anomaly Detectorを提案する。
具体的には,高信頼ラベルを用いたノード間を近似したノイズエッジを切断することにより,ベース検出器の性能向上(AUC)を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-07-08T13:41:21Z) - Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文 参考訳(メタデータ) (2024-07-01T15:53:29Z) - An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation [35.76451156732993]
情報ボトルネック理論を検索強化世代に導入する。
提案手法では,圧縮と地盤出力の相互情報を同時に最大化することにより,ノイズのフィルタリングを行う。
我々は,情報ボトルネックの定式化を導出し,新たな包括的評価を行う。
論文 参考訳(メタデータ) (2024-06-03T17:31:06Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Composing Answer from Multi-spans for Reading Comprehension [77.32873012668783]
本稿では,非抽出機械読解(MRC)タスクに対する応答を生成する新しい手法を提案する。
提案手法は,長い解答を正確に生成する性能が向上し,競合する2つの典型的な1スパンとSeq2Seqのベースラインデコーダよりも大幅に向上する。
論文 参考訳(メタデータ) (2020-09-14T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。