論文の概要: Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles
- arxiv url: http://arxiv.org/abs/2602.01590v2
- Date: Tue, 03 Feb 2026 06:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.724534
- Title: Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles
- Title(参考訳): Wiki Live Challenge: 専門家レベルウィキペディア記事によるディープリサーチエージェントの対応
- Authors: Shaohan Wang, Benfeng Xu, Licheng Zhang, Mingxuan Du, Chiwei Zhu, Xiaorui Wang, Zhendong Mao, Yongdong Zhang,
- Abstract要約: Wiki Live Challenge (WLC)は、最新のWikipedia Good Articles(GA)をエキスパートレベルの参照として活用する、ライブベンチマークである。
Wiki Evalは, 品質基準39の細粒度評価手法と, 事実検証性のための厳密な指標を含む総合的な評価フレームワークである。
- 参考スコア(独自算出の注目度): 56.724847946825285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research Agents (DRAs) have demonstrated remarkable capabilities in autonomous information retrieval and report generation, showing great potential to assist humans in complex research tasks. Current evaluation frameworks primarily rely on LLM-generated references or LLM-derived evaluation dimensions. While these approaches offer scalability, they often lack the reliability of expert-verified content and struggle to provide objective, fine-grained assessments of critical dimensions. To bridge this gap, we introduce Wiki Live Challenge (WLC), a live benchmark that leverages the newest Wikipedia Good Articles (GAs) as expert-level references. Wikipedia's strict standards for neutrality, comprehensiveness, and verifiability serve as a great challenge for DRAs, with GAs representing the pinnacle of which. We curate a dataset of 100 recent Good Articles and propose Wiki Eval, a comprehensive evaluation framework comprising a fine-grained evaluation method with 39 criteria for writing quality and rigorous metrics for factual verifiability. Extensive experiments on various DRA systems demonstrate a significant gap between current DRAs and human expert-level Wikipedia articles, validating the effectiveness of WLC in advancing agent research. We release our benchmark at https://github.com/WangShao2000/Wiki_Live_Challenge
- Abstract(参考訳): Deep Research Agents (DRA)は、自律的な情報検索とレポート生成において顕著な能力を示し、複雑な研究タスクにおいて人間を支援する大きな可能性を示している。
現在の評価フレームワークは、主にLLM生成された参照またはLLMに由来する評価次元に依存している。
これらのアプローチはスケーラビリティを提供するが、専門家が検証したコンテンツの信頼性を欠くことが多く、客観的できめ細かい臨界次元の評価を提供するのに苦労する。
このギャップを埋めるために、Wiki Live Challenge (WLC) という、最新のWikipedia Good Articles (GA) を専門家レベルのリファレンスとして活用するライブベンチマークを導入する。
ウィキペディアの中立性、包括性、検証性に関する厳格な基準は、DRAにとって大きな課題であり、GAはその頂点を表している。
提案するWiki Evalは, 品質基準39の細粒度評価手法と, 事実検証性評価のための厳密な指標を含む総合的な評価手法である。
様々なDRAシステムに関する大規模な実験は、現在のDRAと人間の専門家レベルのウィキペディア記事の間に大きなギャップがあることを示し、エージェント研究の進展におけるWLCの有効性を検証している。
ベンチマークはhttps://github.com/WangShao2000/Wiki_Live_Challengeで公開しています。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [2.0861090421004937]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection [48.188285483378664]
人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。
WikiDYKはウィキペディアの「Did You Know...」エントリから最近追加された人文的な事実を活用する。
WikiDYKには12,290の事実と77,180の質問が含まれている。
論文 参考訳(メタデータ) (2025-05-18T08:39:05Z) - WikiBigEdit: Understanding the Limits of Lifelong Knowledge Editing in LLMs [66.51203413345773]
我々は、生涯にわたる知識編集の研究を現実の編集に事実上の規模で橋渡しする。
まず,実世界のウィキデータ編集の大規模ベンチマークであるWikiBigEditを紹介した。
最初の例では、知識編集のための500万以上の質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-03-07T18:45:42Z) - WIKIGENBENCH: Exploring Full-length Wikipedia Generation under Real-World Scenario [32.28150998156827]
WIKIGENBENCHは、1,320のエントリからなる新しいベンチマークである。
そこで我々は,Web ソースからの入力文書を用いて,新しいイベントに対して,構造化された完全長のウィキペディア記事が引用される現実世界のシナリオを探索する。
評価には、実世界のシナリオに適合する妥当性、組織、その他の側面を評価するために、体系的なメトリクスとLLMベースのメトリクスを統合する。
論文 参考訳(メタデータ) (2024-02-28T11:51:56Z) - Longitudinal Assessment of Reference Quality on Wikipedia [7.823541290904653]
この研究は、その参照のレンズを通して、このグローバル百科事典の信頼性を分析する。
我々は、参照要求(RN)、すなわち引用を欠く文の割合、参照リスク(RR)、すなわち非権威的参照の割合を定義することで、参照品質の概念を運用する。
論文 参考訳(メタデータ) (2023-03-09T13:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。