Fugu-MT 論文翻訳(概要): Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data

論文の概要: Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data

arxiv url: http://arxiv.org/abs/2503.05587v1
Date: Fri, 07 Mar 2025 17:11:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:15.078247
Title: Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data
Title（参考訳）: 検索言語モデルの検索データにおける純粋特徴に対するロバストさの定量化
Authors: Shiping Yang, Jie Wu, Wenbiao Ding, Ning Wu, Shining Liang, Ming Gong, Hengyuan Zhang, Dongmei Zhang,
Abstract要約: 本研究では,RAGパラダイムにおける突発的特徴の存在を統計的に確認する。我々は,突発的な特徴を包括的に分類し,その影響を制御実験により実証的に定量化する。我々は,RAG分野において,突発的特徴は広範かつ困難な問題である,と結論づける。
参考スコア（独自算出の注目度）: 39.78130833789587
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robustness has become a critical attribute for the deployment of RAG systems in real-world applications. Existing research focuses on robustness to explicit noise (e.g., document semantics) but overlooks spurious features (a.k.a. implicit noise). While previous works have explored spurious features in LLMs, they are limited to specific features (e.g., formats) and narrow scenarios (e.g., ICL). In this work, we statistically confirm the presence of spurious features in the RAG paradigm, a robustness problem caused by the sensitivity of LLMs to semantic-agnostic features. Moreover, we provide a comprehensive taxonomy of spurious features and empirically quantify their impact through controlled experiments. Further analysis reveals that not all spurious features are harmful and they can even be beneficial sometimes. Extensive evaluation results across multiple LLMs suggest that spurious features are a widespread and challenging problem in the field of RAG. The code and dataset will be released to facilitate future research. We release all codes and data at: $\\\href{https://github.com/maybenotime/RAG-SpuriousFeatures}{https://github.com/maybenotime/RAG-SpuriousFeatures}$.
Abstract（参考訳）: ロバストネスは現実世界のアプリケーションにおけるRAGシステムのデプロイにおいて重要な属性となっている。既存の研究は、明示的なノイズ(例:文書の意味論)に対する堅牢性に焦点を当てているが、刺激的な特徴(例:暗騒音)を見落としている。以前の研究は、LLMの急激な機能を探求してきたが、それらは特定の機能(例、フォーマット)と狭いシナリオ(例、ICL)に限定されている。本研究では,LLMのセマンティックな特徴に対する感受性に起因するロバスト性問題であるRAGパラダイムにおける突発的特徴の存在を統計的に確認する。さらに,突発的な特徴を包括的に分類し,その影響を実験によって実証的に定量化する。さらに分析した結果、全ての突発的な特徴が有害であるわけではなく、時には有益である可能性があることが判明した。複数の LLM にまたがる広範囲な評価結果から,RAG の分野では急激な特徴が広く,困難な問題であることが示唆された。コードとデータセットは、将来の研究を促進するためにリリースされる。 $\\\href{https://github.com/maybenotime/RAG-SpuriousFeatures}{https://github.com/maybenotime/RAG-SpuriousFeatures}$

関連論文リスト

RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文参考訳（メタデータ） (2025-07-26T20:57:24Z)
Toward Better Generalisation in Uncertainty Estimators: Leveraging Data-Agnostic Features [1.03590082373586]
データに依存しない特徴と隠れ状態の特徴を組み合わせることで、ドメイン外性能が向上するかどうかを検討する。実験結果から,データに依存しない機能の導入は一般的に一般化性能を高めるが,特定のシナリオでは性能が低下することが示唆された。より詳細な分析では、訓練されたプローブが隠れ状態の特徴に対してデータに依存しない特徴を過小評価している場合があり、これが結果が決定できない主な理由であると考えている。
論文参考訳（メタデータ） (2025-07-05T10:55:36Z)
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文参考訳（メタデータ） (2024-10-08T13:04:02Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文参考訳（メタデータ） (2024-03-15T16:30:14Z)
Predictive variational autoencoder for learning robust representations of time-series data [0.0]
本稿では,次点を予測するVAEアーキテクチャを提案する。 VAEの2つの制約は、時間とともにスムーズであることを示し、堅牢な潜伏表現を生成し、合成データセット上の潜伏因子を忠実に回収する。
論文参考訳（メタデータ） (2023-12-12T02:06:50Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。