論文の概要: FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2604.14227v1
- Date: Tue, 14 Apr 2026 17:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.925989
- Title: FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation
- Title(参考訳): FRESCO: Retrieval-Augmented Generationにおけるセマンティック・コンフリクトの進化のためのベンチマークとリランカの最適化
- Authors: Sohyun An, Hayeon Lee, Shuibenyang Yuan, Chun-cheng Jason Chen, Cho-Jui Hsieh, Vijai Mohan, Alexander Min,
- Abstract要約: 時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
- 参考スコア(独自算出の注目度): 73.22935457705057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a key approach to mitigating the temporal staleness of large language models (LLMs) by grounding responses in up-to-date evidence. Within the RAG pipeline, re-rankers play a pivotal role in selecting the most useful documents from retrieved candidates. However, existing benchmarks predominantly evaluate re-rankers in static settings and do not adequately assess performance under evolving information -- a critical gap, as real-world systems often must choose among temporally different pieces of evidence. To address this limitation, we introduce FRESCO (Factual Recency and Evolving Semantic COnflict), a benchmark for evaluating re-rankers in temporally dynamic contexts. By pairing recency-seeking queries with historical Wikipedia revisions, FRESCO tests whether re-rankers can prioritize factually recent evidence while maintaining semantic relevance. Our evaluation reveals a consistent failure mode across existing re-rankers: a strong bias toward older, semantically rich documents, even when they are factually obsolete. We further investigate an instruction optimization framework to mitigate this issue. By identifying Pareto-optimal instructions that balance Evolving and Non-Evolving Knowledge tasks, we obtain gains of up to 27% on Evolving Knowledge tasks while maintaining competitive performance on Non-Evolving Knowledge tasks.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の時間的安定化を緩和するための重要なアプローチである。
RAGパイプライン内では、リランカが検索された候補から最も有用なドキュメントを選択する上で、重要な役割を果たす。
しかし、既存のベンチマークは静的な設定でリランカを主に評価し、進化する情報の下でパフォーマンスを適切に評価しない。
この制限に対処するために、時間的動的文脈で再ランカを評価するためのベンチマークであるFRESCO(Factual Recency and Evolving Semantic Conflict)を導入する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
さらに、この問題を軽減するための命令最適化フレームワークについて検討する。
進化的知識タスクと非進化的知識タスクのバランスをとるパレート最適命令を同定することにより、非進化的知識タスクの競争性能を維持しながら、進化的知識タスクの最大27%のゲインを得る。
関連論文リスト
- ExDR: Explanation-driven Dynamic Retrieval Enhancement for Multimodal Fake News Detection [23.87220484843729]
マルチモーダルのフェイクニュースは 深刻な社会的脅威を引き起こします
Dynamic Retrieval-Augmented Generationはキーワードベースの検索をトリガーすることで、有望なソリューションを提供する。
マルチモーダルフェイクニュース検出のための説明駆動動的検索生成フレームワークであるExDRを提案する。
論文 参考訳(メタデータ) (2026-01-22T10:10:06Z) - Re-Rankers as Relevance Judges [65.37611299805856]
再ランカ・アズ・レバレンス・ジャッジ設定で再ランカを再現する。
TREC-DL 2019〜2023では,220Mから32Bの3家族から8人の再ランカを対象に実験を行い,再ランカに基づく審査員による評価バイアスを分析した。
論文 参考訳(メタデータ) (2026-01-08T00:02:59Z) - Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering [0.3376269351435395]
大規模なデジタル化のイニシアチブは、多くの歴史新聞を解き放った。
雑音の多い歴史文書に対する質問応答に特化して設計された多言語検索型拡張生成パイプラインを開発し,評価する。
論文 参考訳(メタデータ) (2025-12-14T13:57:05Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation Edits [5.443263983810103]
ユーザーはオンラインでクレームと対話するので、しばしば編集を導入し、現在の埋め込みモデルがそのような編集に堅牢かどうかは不明だ。
本研究では, 文埋め込みモデルの頑健性を評価するために, 有効かつ自然なクレーム変動を生成する摂動フレームワークを提案する。
評価の結果,標準埋込モデルでは編集されたクレームに顕著な性能低下がみられ,LCM蒸留埋込モデルでは高い計算コストでロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:47:32Z) - Variations in Relevance Judgments and the Shelf Life of Test Collections [50.060833338921945]
ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。
我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
論文 参考訳(メタデータ) (2025-02-28T10:46:56Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。