論文の概要: LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge
- arxiv url: http://arxiv.org/abs/2511.01409v2
- Date: Thu, 06 Nov 2025 15:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.483577
- Title: LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge
- Title(参考訳): LiveSearchBench: 動的知識の検索と推論のための自動構築ベンチマーク
- Authors: Heng Zhou, Ao Yu, Yuchen Fan, Jianing Shi, Li Kang, Hejia Geng, Yongting Zhang, Yutao Fan, Yuhao Wu, Tiancheng He, Yiran Qin, Lei Bai, Zhenfei Yin,
- Abstract要約: 近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
- 参考スコア(独自算出の注目度): 31.40589987269264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language models (LLMs) on question answering often relies on static benchmarks that reward memorization and understate the role of retrieval, failing to capture the dynamic nature of world knowledge. We present LiveSearchBench, an automated pipeline for constructing retrieval-dependent benchmarks from recent knowledge updates. Our method computes deltas between successive Wikidata snapshots, filters candidate triples for quality, and synthesizes natural-language questions at three levels of reasoning difficulty, each guaranteed to admit a unique, verifiable answer through SPARQL validation. The pipeline is fully automated, scalable across time, and minimizes human intervention, enabling continual regeneration of temporally grounded benchmarks. Experiments show a pronounced performance drop when models confront facts that post-date pretraining, with the gap most salient on multi-hop queries. Retrieval augmented methods and larger, instruction-tuned models provide partial gains but fail to close this recency gap. By design, LiveSearchBench shifts evaluation from static memorization toward tasks that require up-to-date retrieval and reasoning, offering a foundation for systematic, long-term assessment of LLMs under evolving knowledge.
- Abstract(参考訳): 疑問応答における大規模言語モデル (LLMs) の評価は、しばしば暗記に報いる静的なベンチマークに頼っており、世界知識の動的な性質を捉えていない。
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
パイプラインは完全に自動化され、時間にわたってスケーラブルであり、人間の介入を最小限に抑え、時間的基盤のあるベンチマークの継続的な再生を可能にする。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
検索可能な拡張手法と、より大きな命令調整モデルにより、部分的な利得が得られるが、この遅延ギャップを埋めることができない。
設計によってLiveSearchBenchは、静的記憶から最新の検索と推論を必要とするタスクへと評価をシフトし、進化する知識の下でのLLMの体系的長期評価の基礎を提供する。
関連論文リスト
- KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。