論文の概要: Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers
- arxiv url: http://arxiv.org/abs/2508.20408v1
- Date: Thu, 28 Aug 2025 04:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.990249
- Title: Fact or Facsimile? Evaluating the Factual Robustness of Modern Retrievers
- Title(参考訳): ファクトかファクシミリか : 現代レトリバーのファクチュアルロバスト性の評価
- Authors: Haoyu Wu, Qingcheng Zeng, Kaize Ding,
- Abstract要約: デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心である。
我々は,これらのコンポーネントがベースとする大規模言語モデル(LLM)をどの程度の事実的能力で継承するか,あるいは失うかを評価する。
全ての埋め込みモデルにおいて、クエリと正しい完了の間のコサイン類似度スコアは、間違ったものよりも著しく高い。
- 参考スコア(独自算出の注目度): 34.31192184496381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrievers and rerankers are central to retrieval-augmented generation (RAG) pipelines, where accurately retrieving factual information is crucial for maintaining system trustworthiness and defending against RAG poisoning. However, little is known about how much factual competence these components inherit or lose from the large language models (LLMs) they are based on. We pair 12 publicly released embedding checkpoints with their original base LLMs and evaluate both sets on a factuality benchmark. Across every model evaluated, the embedding variants achieve markedly lower accuracy than their bases, with absolute drops ranging from 12 to 43 percentage points (median 28 pts) and typical retriever accuracies collapsing into the 25-35 % band versus the 60-70 % attained by the generative models. This degradation intensifies under a more demanding condition: when the candidate pool per question is expanded from four options to one thousand, the strongest retriever's top-1 accuracy falls from 33 % to 26 %, revealing acute sensitivity to distractor volume. Statistical tests further show that, for every embedding model, cosine-similarity scores between queries and correct completions are significantly higher than those for incorrect ones (p < 0.01), indicating decisions driven largely by surface-level semantic proximity rather than factual reasoning. To probe this weakness, we employed GPT-4.1 to paraphrase each correct completion, creating a rewritten test set that preserved factual truth while masking lexical cues, and observed that over two-thirds of previously correct predictions flipped to wrong, reducing overall accuracy to roughly one-third of its original level. Taken together, these findings reveal a systematic trade-off introduced by contrastive learning for retrievers: gains in semantic retrieval are paid for with losses in parametric factual knowledge......
- Abstract(参考訳): デンスレトリバーとリランカーは、検索強化世代(RAG)パイプラインの中心であり、システム信頼性の維持とRAG中毒に対する防御のために、事実情報の正確な検索が不可欠である。
しかしながら、これらのコンポーネントがベースとする大規模言語モデル(LLM)からどの程度の事実的能力を引き継ぐか、あるいは失うかは、ほとんど分かっていない。
12個の組込みチェックポイントを元のLLMとペアリングし、両方のセットを事実性ベンチマークで評価する。
各モデルで評価したところ, 埋込み変種は, 12~43ポイント(中央28 pts)の絶対値と, 25~35 %のバンドに崩壊する典型的なレトリバーの精度を, 生成モデルで得られた60~70 %に対して有意に低い精度で達成した。
この劣化は、質問ごとの候補プールが4つのオプションから1000に拡張されたとき、最強の検索者のトップ1の精度は33%から26%に低下し、トラクタボリュームに対する鋭い感度を示す。
統計的テストにより、すべての埋め込みモデルにおいて、クエリと正しい補完の間のコサイン類似度スコアは、誤ったものよりも有意に高い(p < 0.01)。
この弱点を解明するために,私たちはGPT-4.1を用いて,語彙的手がかりを隠蔽しながら事実を保存した書き直しテストセットを作成し,それまでの正しい予測の3分の2が誤りに陥り,全体の精度が元の3分の1に低下したことを観察した。
これらの知見を総合すると、検索者にとって対照的な学習によって導入された体系的なトレードオフが明らかになる:意味検索の利益は、パラメトリックな事実知識の損失と共に支払われる。
関連論文リスト
- High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning [84.52940628494879]
大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。
LLMは、知識や能力の欠如によって、誤った答えを生み出すことができる。
本稿では,その正確性に自信を持った場合にのみコンテンツを生成するためのLCMのポストトレーニングを提案する。
論文 参考訳(メタデータ) (2025-06-04T15:16:21Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。