Fugu-MT 論文翻訳(概要): FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models

論文の概要: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models

arxiv url: http://arxiv.org/abs/2502.11811v1
Date: Mon, 17 Feb 2025 13:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.309944
Title: FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models
Title（参考訳）: FineFilter: 検索型大規模言語モデルのためのきめ細かいノイズフィルタリング機構
Authors: Qianchi Zhang, Hainan Zhang, Liang Pang, Hongwei Zheng, Yongxin Tong, Zhiming Zheng,
Abstract要約: FineFilterはRetrieval-Augmented Generationのための新しいきめ細かいノイズフィルタリング機構である。手がかり抽出器、再ランカ、およびトランケータから構成される。 3つのQAデータセットの実験では、FinFilterはパフォーマンスと推論コストの点でベースラインを大幅に上回っている。
参考スコア（独自算出の注目度）: 24.14463939882959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieved documents containing noise will hinder Retrieval-Augmented Generation (RAG) from detecting answer clues, necessitating noise filtering mechanisms to enhance accuracy.Existing methods use re-ranking or summarization to identify the most relevant sentences, but directly and accurately locating answer clues from these large-scale and complex documents remains challenging. Unlike these document-level operations, we treat noise filtering as a sentence-level MinMax optimization problem: first identifying the potential clues from multiple documents using contextual information, then ranking them by relevance, and finally retaining the least clues through truncation. In this paper, we propose FineFilter, a novel fine-grained noise filtering mechanism for RAG consisting of a clue extractor, a re-ranker, and a truncator. We optimize each module to tackle complex reasoning challenges: (1) Clue extractor firstly uses sentences containing the answer and similar ones as fine-tuned targets, aiming at extracting sufficient potential clues; (2) Re-ranker is trained to prioritize effective clues based on the real feedback from generation module, with clues capable of generating correct answer as positive samples and others as negative; (3) Truncator takes the minimum clues needed to answer the question (truncation point) as fine-tuned targets, and performs truncation on the re-ranked clues to achieve fine-grained noise filtering. Experiments on three QA datasets demonstrate that FineFilter significantly outperforms baselines in terms of performance and inference cost. Further analysis on each module shows the effectiveness of our optimizations for complex reasoning.
Abstract（参考訳）: ノイズを含む検索された文書は、解答手がかりの検出や、精度を高めるためにノイズフィルタリング機構を必要とせず、最も関連性の高い文を識別するために再ランク付けや要約を用いるが、これらの大規模で複雑な文書から直接的かつ正確に解答ヒントを抽出することは困難である。これらの文書レベルの操作とは異なり、ノイズフィルタリングを文レベルのMinMax最適化問題として扱う。まず、コンテキスト情報を用いて複数の文書から潜在的な手がかりを識別し、関連性に基づいてそれらをランク付けし、最後にトランケーションを通して最小の手がかりを保持する。本稿では,手掛かり抽出器,リランカ,トランケータからなるRAGのための新しいきめ細かいノイズフィルタリング機構であるFineFilterを提案する。 1) クルー抽出器は,まず,質問文と類似文を含む文を微調整対象として使用し,十分な潜在的な手がかりを抽出すること,(2) 再帰者は生成モジュールからの真のフィードバックに基づいて効果的な手がかりを優先するように訓練され,正のサンプルとして正の回答を生成できる手がかりを負として生成する,(3) トランケータは,質問文(トランケーションポイント)を微調整対象とし,再帰ヒントをトランケートして微細化ノイズフィルタリングを実現する,といった複雑な推論課題に対処する。 3つのQAデータセットの実験では、FinFilterはパフォーマンスと推論コストの点でベースラインを大幅に上回っている。各モジュールのさらなる解析は、複素推論に対する最適化の有効性を示す。

関連論文リスト

CAFE: Retrieval Head-based Coarse-to-Fine Information Seeking to Enhance Multi-Document QA Capability [55.46506909726119]
複数文書の問合せ能力を向上させるための2段階の粗大化手法である$textbfCAFE$を紹介した。 CAFEは、Mistralモデル上でのSFT法とRAG法よりも最大22.1%と13.7%のSubEM改善を実現している。
論文参考訳（メタデータ） (2025-05-15T08:05:12Z)
Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文参考訳（メタデータ） (2025-02-16T13:23:39Z)
GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。 GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文参考訳（メタデータ） (2025-02-09T14:11:30Z)
MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。 Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。 MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文参考訳（メタデータ） (2024-12-31T08:07:26Z)
Bridging Relevance and Reasoning: Rationale Distillation in Retrieval-Augmented Generation [43.50677378728461]
本稿では,Rationale DistillatiOnを用いた新規かつ実用的な嗜好アライメントフレームワークであるRADIOを提案する。まず,Large Language Models (LLMs) の推論能力を活用して,問合せに要する有理を抽出する理性抽出手法を提案する。その後、抽出された有理性に基づいて文書を再引用する合理性に基づくアライメントプロセスが設計され、その選好を調整するために再帰者を微調整する。
論文参考訳（メタデータ） (2024-12-11T16:32:41Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文参考訳（メタデータ） (2024-10-25T14:07:53Z)
Graph Anomaly Detection with Noisy Labels by Reinforcement Learning [13.135788402192215]
本稿では,新しいフレームワークREGAD,すなわちReinforced Graph Anomaly Detectorを提案する。具体的には,高信頼ラベルを用いたノード間を近似したノイズエッジを切断することにより,ベース検出器の性能向上(AUC)を最大化することを目的とする。
論文参考訳（メタデータ） (2024-07-08T13:41:21Z)
Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文参考訳（メタデータ） (2024-07-01T15:53:29Z)
Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。 NPCは検出モジュールと修正モジュールから構成される。我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文参考訳（メタデータ） (2023-11-07T08:27:14Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文参考訳（メタデータ） (2022-04-27T12:40:21Z)
Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-03-15T06:12:00Z)
Composing Answer from Multi-spans for Reading Comprehension [77.32873012668783]
本稿では,非抽出機械読解(MRC)タスクに対する応答を生成する新しい手法を提案する。提案手法は,長い解答を正確に生成する性能が向上し,競合する2つの典型的な1スパンとSeq2Seqのベースラインデコーダよりも大幅に向上する。
論文参考訳（メタデータ） (2020-09-14T01:44:42Z)
Retrospective Reader for Machine Reading Comprehension [90.6069071495214]
機械読み取り理解(英: Machine reading comprehension、MRC)とは、機械が与えられた文節に基づいて質問に対する正しい答えを決定することを要求するAIチャレンジである。不可解な質問が MRC タスクに関与している場合、検証モジュールと呼ばれる本質的な検証モジュールがエンコーダに加えて特に必要となる。本稿では, MRC タスクに対して, 解答不能な質問に対して, より優れた検証器設計を提案する。
論文参考訳（メタデータ） (2020-01-27T11:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。