論文の概要: Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data
- arxiv url: http://arxiv.org/abs/2503.05587v1
- Date: Fri, 07 Mar 2025 17:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:09.202695
- Title: Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data
- Title(参考訳): 検索言語モデルの検索データにおける純粋特徴に対するロバストさの定量化
- Authors: Shiping Yang, Jie Wu, Wenbiao Ding, Ning Wu, Shining Liang, Ming Gong, Hengyuan Zhang, Dongmei Zhang,
- Abstract要約: 本研究では,RAGパラダイムにおける突発的特徴の存在を統計的に確認する。
我々は,突発的な特徴を包括的に分類し,その影響を制御実験により実証的に定量化する。
我々は,RAG分野において,突発的特徴は広範かつ困難な問題である,と結論づける。
- 参考スコア(独自算出の注目度): 39.78130833789587
- License:
- Abstract: Robustness has become a critical attribute for the deployment of RAG systems in real-world applications. Existing research focuses on robustness to explicit noise (e.g., document semantics) but overlooks spurious features (a.k.a. implicit noise). While previous works have explored spurious features in LLMs, they are limited to specific features (e.g., formats) and narrow scenarios (e.g., ICL). In this work, we statistically confirm the presence of spurious features in the RAG paradigm, a robustness problem caused by the sensitivity of LLMs to semantic-agnostic features. Moreover, we provide a comprehensive taxonomy of spurious features and empirically quantify their impact through controlled experiments. Further analysis reveals that not all spurious features are harmful and they can even be beneficial sometimes. Extensive evaluation results across multiple LLMs suggest that spurious features are a widespread and challenging problem in the field of RAG. The code and dataset will be released to facilitate future research. We release all codes and data at: $\\\href{https://github.com/maybenotime/RAG-SpuriousFeatures}{https://github.com/maybenotime/RAG-SpuriousFeatures}$.
- Abstract(参考訳): ロバストネスは現実世界のアプリケーションにおけるRAGシステムのデプロイにおいて重要な属性となっている。
既存の研究は、明示的なノイズ(例:文書の意味論)に対する堅牢性に焦点を当てているが、刺激的な特徴(例:暗騒音)を見落としている。
以前の研究は、LLMの急激な機能を探求してきたが、それらは特定の機能(例、フォーマット)と狭いシナリオ(例、ICL)に限定されている。
本研究では,LLMのセマンティックな特徴に対する感受性に起因するロバスト性問題であるRAGパラダイムにおける突発的特徴の存在を統計的に確認する。
さらに,突発的な特徴を包括的に分類し,その影響を実験によって実証的に定量化する。
さらに分析した結果、全ての突発的な特徴が有害であるわけではなく、時には有益である可能性があることが判明した。
複数の LLM にまたがる広範囲な評価結果から,RAG の分野では急激な特徴が広く,困難な問題であることが示唆された。
コードとデータセットは、将来の研究を促進するためにリリースされる。
$\\\href{https://github.com/maybenotime/RAG-SpuriousFeatures}{https://github.com/maybenotime/RAG-SpuriousFeatures}$
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。
実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文 参考訳(メタデータ) (2024-10-08T13:04:02Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-15T16:30:14Z) - Predictive variational autoencoder for learning robust representations
of time-series data [0.0]
本稿では,次点を予測するVAEアーキテクチャを提案する。
VAEの2つの制約は、時間とともにスムーズであることを示し、堅牢な潜伏表現を生成し、合成データセット上の潜伏因子を忠実に回収する。
論文 参考訳(メタデータ) (2023-12-12T02:06:50Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。