論文の概要: LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News
- arxiv url: http://arxiv.org/abs/2602.13543v1
- Date: Sat, 14 Feb 2026 01:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.136994
- Title: LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News
- Title(参考訳): LiveNewsBench: 新しくキュレートされたニュースによるLLM Web検索機能の評価
- Authors: Yunfan Zhang, Kathleen McKeown, Smaranda Muresan,
- Abstract要約: エージェントWeb検索機能を備えた大規模言語モデル(LLM)は、リアルタイム情報アクセスと複雑な事実検索を必要とするタスクに強い可能性を示す。
LLMのエージェントWeb検索能力を評価するためのベンチマークであるベンチを導入する。
ベンチは、最新のニュース記事から新しい質問応答ペアを自動的に生成する。
- 参考スコア(独自算出の注目度): 29.74044158672979
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) with agentic web search capabilities show strong potential for tasks requiring real-time information access and complex fact retrieval, yet evaluating such systems remains challenging. We introduce \bench, a rigorous and regularly updated benchmark designed to assess the agentic web search abilities of LLMs. \bench automatically generates fresh question-answer pairs from recent news articles, ensuring that questions require information beyond an LLM's training data and enabling clear separation between internal knowledge and search capability. The benchmark features intentionally difficult questions requiring multi-hop search queries, page visits, and reasoning, making it well-suited for evaluating agentic search behavior. Our automated data curation and question generation pipeline enables frequent benchmark updates and supports construction of a large-scale training dataset for agentic web search models, addressing the scarcity of such data in the research community. To ensure reliable evaluation, we include a subset of human-verified samples in the test set. We evaluate a broad range of systems using \bench, including commercial and open-weight LLMs as well as LLM-based web search APIs. The leaderboard, datasets, and code are publicly available at livenewsbench.com.
- Abstract(参考訳): エージェントWeb検索機能を備えた大規模言語モデル(LLM)は、リアルタイム情報アクセスと複雑な事実検索を必要とするタスクに強い可能性を示すが、そのようなシステムの評価は依然として困難である。
LLMのエージェントWeb検索能力を評価するために,厳格かつ定期的に更新されたベンチマークである \bench を紹介する。
\benchは、最近のニュース記事から新しい質問対を自動的に生成し、質問がLLMのトレーニングデータ以上の情報を必要とし、内部知識と検索能力の明確な分離を可能にする。
このベンチマークは、マルチホップ検索クエリ、ページ訪問、推論を必要とする意図的な難しい質問を特徴とし、エージェント検索の振る舞いを評価するのに適している。
我々の自動データキュレーションと質問生成パイプラインは、頻繁なベンチマーク更新を可能にし、エージェントWeb検索モデルのための大規模なトレーニングデータセットの構築をサポートし、研究コミュニティにおけるそのようなデータの不足に対処する。
信頼性の高い評価を実現するため,テストセットに人間検証サンプルのサブセットを含める。
商用およびオープンウェイト LLM や LLM ベースの Web 検索 API など,幅広いシステムの評価を行った。
リーダーボード、データセット、コードは livenewsbench.com で公開されている。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents [9.003325286793288]
人間の言語を理解するために採用された大規模言語モデル(LLM)は、人工知能(AI)ウェブサーチエージェントの開発を促進する。
本稿では、レベル認識ナビゲーションによる汎用的かつトレーニング不要なWeb検索エージェントであるLevel-Navi Agentについて、十分な注釈付きデータセット(Web24)と適切な評価基準を伴って提案する。
論文 参考訳(メタデータ) (2024-12-20T08:03:12Z) - SRSA: A Cost-Efficient Strategy-Router Search Agent for Real-world Human-Machine Interactions [3.5725872564627785]
現実の状況では、ユーザーはしばしばコンテキストと高度にパーソナライズされたクエリをチャットボットに入力する。
これまでの研究は、人間と機械の対話のシナリオに特に焦点を絞ってはいなかった。
これらのギャップに対処するために、戦略ベース検索エージェント(SRSA)を提案する。
SRSAは、異なるクエリを適切な検索戦略にルーティングし、よりきめ細かいシリアル検索により、比較的低コストで高品質な結果を得ることができる。
論文 参考訳(メタデータ) (2024-11-21T20:41:55Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。