論文の概要: ResearchQA: Evaluating Scholarly Question Answering at Scale Across 75 Fields with Survey-Mined Questions and Rubrics
- arxiv url: http://arxiv.org/abs/2509.00496v1
- Date: Sat, 30 Aug 2025 13:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.257671
- Title: ResearchQA: Evaluating Scholarly Question Answering at Scale Across 75 Fields with Survey-Mined Questions and Rubrics
- Title(参考訳): ResearchQA:75分野を対象にした学術的質問応答の評価
- Authors: Li S. Yifei, Allen Chang, Chaitanya Malaviya, Mark Yatskar,
- Abstract要約: ResearchQAは、75の研究分野から21Kクエリと160Kルーブリックアイテムに調査項目を蒸留し、LCMシステムを評価するためのリソースである。
8フィールドの31のPh.D.アノテータによる評価では、クエリの96%がPh.D.情報ニーズをサポートしている。
我々はResearchQAを利用して、18のシステムにおける能力ギャップを7.6K以上のペアワイズ評価で分析する。
- 参考スコア(独自算出の注目度): 11.916911713137518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating long-form responses to research queries heavily relies on expert annotators, restricting attention to areas like AI where researchers can conveniently enlist colleagues. Yet, research expertise is widespread: survey articles synthesize knowledge distributed across the literature. We introduce ResearchQA, a resource for evaluating LLM systems by distilling survey articles from 75 research fields into 21K queries and 160K rubric items. Each rubric, derived jointly with queries from survey sections, lists query-specific answer evaluation criteria, i.e., citing papers, making explanations, and describing limitations. Assessments by 31 Ph.D. annotators in 8 fields indicate 96% of queries support Ph.D. information needs and 87% of rubric items should be addressed in system responses by a sentence or more. Using our rubrics, we are able to construct an automatic pairwise judge obtaining 74% agreement with expert judgments. We leverage ResearchQA to analyze competency gaps in 18 systems in over 7.6K pairwise evaluations. No parametric or retrieval-augmented system we evaluate exceeds 70% on covering rubric items, and the highest-ranking agentic system shows 75% coverage. Error analysis reveals that the highest-ranking system fully addresses less than 11% of citation rubric items, 48% of limitation items, and 49% of comparison items. We release our data to facilitate more comprehensive multi-field evaluations.
- Abstract(参考訳): 研究クエリに対するロングフォームレスポンスの評価は、専門家アノテータに大きく依存しており、研究者が同僚を便利に登録できるAIのような分野への注意を制限する。
しかし、研究の専門知識は広く、調査論文は文献に散在する知識を合成する。
我々は75の研究分野から21Kクエリと160Kルーブリックアイテムに調査項目を蒸留し,LLMシステムを評価するためのリソースであるResearchQAを紹介する。
各ルーリックは、調査セクションからのクエリと共同で派生し、クエリ固有の回答評価基準、すなわち、論文の引用、説明、制限の記述をリストアップする。
8フィールドの31のPh.D.アノテータによる評価では、クエリの96%がPh.D.情報のニーズをサポートし、87%が文以上のシステム応答に対処すべきである。
我々のルーリックを用いて、専門家の判断と74%の合意を得て、自動的なペアワイズ・ジャッジを構築することができる。
我々はResearchQAを利用して、18のシステムにおける能力ギャップを7.6K以上のペアワイズ評価で分析する。
パラメトリック・検索強化システムでは, 処理対象物の70%以上をカバーし, 上位のエージェント・システムでは75%のカバレッジを示した。
誤差分析の結果, 上位のシステムでは引用ルーブリック項目の11%未満, 制限項目の48%, 比較項目の49%に完全に対応していることがわかった。
我々は、より包括的なマルチフィールド評価を容易にするために、データを公開します。
関連論文リスト
- Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report [36.25273583677749]
我々は、ディープリサーチシステムを評価するための新しいベンチマークであるDeep Research Bench IIを紹介する。
各タスクに対して、システムは9430個の微細なバイナリルーブリックによって評価される長期の研究レポートを生成する必要がある。
我々は、Deep Research Bench IIにおける最先端のディープリサーチシステムを評価し、最強のモデルでさえ、ルーリックの50%以下を満たすことを発見した。
論文 参考訳(メタデータ) (2026-01-13T13:18:39Z) - DEER: A Comprehensive and Reliable Benchmark for Deep-Research Expert Reports [49.217247659479476]
ディープリサーチシステムは、多段階の推論とエビデンスベースの合成を通じて専門家レベルのレポートを生成することができる。
既存のベンチマークは、エキスパートレポートの体系的な基準を欠いていることが多い。
専門家レベルのディープリサーチレポートを評価するためのベンチマークであるDEERを紹介する。
論文 参考訳(メタデータ) (2025-12-19T16:46:20Z) - FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.5695516127813]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。
FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。
6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文 参考訳(メタデータ) (2025-10-15T17:21:56Z) - SurveyBench: Can LLM(-Agents) Write Academic Surveys that Align with Reader Needs? [37.28508850738341]
調査書は労働集約的で知的に要求されるタスクである。
一般的なDeepResearchエージェントやサーベイ特殊化手法のような最近のアプローチは、自動的にサーベイを生成することができる。
しかし、そのアウトプットは人間の基準に欠けることが多く、厳格で読者対応のベンチマークが欠けている。
本稿では,詳細なクイズ駆動評価フレームワークであるSurveyBenchを提案する。
論文 参考訳(メタデータ) (2025-10-03T15:49:09Z) - Agentic AutoSurvey: Let LLMs Survey LLMs [31.13281166545961]
自動サーベイ生成のためのマルチエージェントフレームワークである textbfAgentic AutoSurvey を提案する。
本システムでは, 総合的な文献調査を優れた合成品質で作成するために, 共同作業を行う専門エージェント(ページ検索スペシャリスト, トピックマイニング・クラスタリング, アカデミックサーベイライター, 品質評価者)を4名採用している。
論文 参考訳(メタデータ) (2025-09-23T05:28:43Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text [0.16385815610837165]
本稿では,Quranic Tafsir と Ahadith の領域内で質問応答を目的とした包括的データセットについて紹介する。
このデータセットは、73,000以上の質問応答ペアからなる堅牢なコレクションで構成されており、この特殊なドメインで報告されている最大のデータセットである。
本稿では,データセットのコントリビューションを強調しながら,その後の人的評価から,既存の自動評価手法の限界に関する批判的な洞察が得られた。
論文 参考訳(メタデータ) (2024-09-15T19:50:00Z) - The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review [36.74806978149457]
著者が提供するランキングは、機械学習カンファレンスでのピアレビュープロセスを改善するために利用することができる。
著者が提示したランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
本稿では,アイソトニック機構の慎重かつリスクの低いいくつかの応用と著者が提案する格付けをピアレビューで提案する。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Question answering systems for health professionals at the point of care
-- a systematic review [2.446313557261822]
質問応答システム(QA)は、医療専門家に最新の最も関係のある証拠を提供することで、医療の質を向上させる可能性がある。
この体系的なレビューは、現在の医療QAシステムを特徴づけ、医療への適合性を評価し、改善の領域を特定することを目的としている。
論文 参考訳(メタデータ) (2024-01-24T13:47:39Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。