論文の概要: Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
- arxiv url: http://arxiv.org/abs/2506.03901v1
- Date: Wed, 04 Jun 2025 12:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.327758
- Title: Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems
- Title(参考訳): Magic Mushroom:RAGシステムにおける検索ノイズの微粒化解析のためのカスタマイズ可能なベンチマーク
- Authors: Yuxin Zhang, Yan Wang, Yongrui Chen, Shenyu Zhang, Xinbang Dai, Sheng Bi, Guilin Qi,
- Abstract要約: 既存のベンチマークでは、現実世界の検索環境で発生する複雑で異質なノイズ分布をエミュレートすることができない。
Magic Mushroomは"マジックキノコ"ノイズを再現するベンチマークである。
Magic Mushroomは、ノイズキャンバスRAGシステムの評価と進展のための有望なツールとして登場した。
- 参考スコア(独自算出の注目度): 16.058785648585605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) by incorporating external retrieved information, mitigating issues such as hallucination and outdated knowledge. However, RAG systems are highly sensitive to retrieval noise prevalent in real-world scenarios. Existing benchmarks fail to emulate the complex and heterogeneous noise distributions encountered in real-world retrieval environments, undermining reliable robustness assessment. In this paper, we define four categories of retrieval noise based on linguistic properties and noise characteristics, aiming to reflect the heterogeneity of noise in real-world scenarios. Building on this, we introduce Magic Mushroom, a benchmark for replicating "magic mushroom" noise: contexts that appear relevant on the surface but covertly mislead RAG systems. Magic Mushroom comprises 7,468 single-hop and 3,925 multi-hop question-answer pairs. More importantly, Magic Mushroom enables researchers to flexibly configure combinations of retrieval noise according to specific research objectives or application scenarios, allowing for highly controlled evaluation setups. We evaluate LLM generators of varying parameter scales and classic RAG denoising strategies under diverse noise distributions to investigate their performance dynamics during progressive noise encroachment. Our analysis reveals that both generators and denoising strategies have significant room for improvement and exhibit extreme sensitivity to noise distributions. Magic Mushroom emerges as a promising tool for evaluating and advancing noise-robust RAG systems, accelerating their widespread deployment in real-world applications. The Magic Mushroom benchmark is available at the https://drive.google.com/file/d/1aP5kyPuk4L-L_uoI6T9UhxuTyt8oMqjT/view?usp=sharing.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部から取得した情報を取り入れ、幻覚や時代遅れの知識といった問題を緩和することで、Large Language Models (LLM) を強化する。
しかし、RAGシステムは現実のシナリオでよく見られる検索ノイズに非常に敏感である。
既存のベンチマークでは、実世界の検索環境で発生する複雑で不均一なノイズ分布をエミュレートすることができず、信頼性の高いロバスト性評価を損なう。
本稿では,実世界のシナリオにおける雑音の不均一性を反映して,言語特性と雑音特性に基づく検索ノイズの4つのカテゴリを定義する。
この上に構築されたMagic Mushroomは、"マジックキノコ"ノイズを再現するベンチマークです。
Magic Mushroomは、シングルホップ7,468台、マルチホップ3,925台で構成されている。
さらに重要なのは、Magic Mushroomによって、研究者は特定の研究目的やアプリケーションシナリオに応じて、検索ノイズの組み合わせを柔軟に設定でき、高度に制御された評価設定が可能になることだ。
本研究では,様々なパラメータスケールのLCMジェネレータと従来のRAGデノゲーション戦略を多種多様なノイズ分布下で評価し,プログレッシブノイズエンクロメント時の性能特性について検討した。
分析の結果, 発電機と遮音対策の両方に改善の余地があり, 騒音分布に対する過度な感度を示すことが明らかとなった。
Magic Mushroomは、ノイズキャンバスRAGシステムの評価と進展のための有望なツールとして登場し、現実世界のアプリケーションへの展開を加速している。
Magic Mushroomベンチマークはhttps://drive.google.com/file/d/1aP5kyPuk4L-L_uoI6T9UhxuTyt8oMqjT/view?
usp=共有。
関連論文リスト
- Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models [25.044751882839886]
大規模言語モデル(LLM)における幻覚に対処するための重要な手法として、検索型拡張生成(RAG)が登場している。
本稿では,言語的観点から7つの異なるノイズタイプを定義し,ノイズRAGベンチマーク(NoiserBench)を確立する。
我々の分析は、より堅牢で適応可能なRAGソリューションを開発し、多様な検索シナリオにまたがる幻覚を緩和するための洞察を提供する。
論文 参考訳(メタデータ) (2024-08-24T09:23:01Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。