論文の概要: ResearchQA: Evaluating Scholarly Question Answering at Scale Across 75 Fields with Survey-Mined Questions and Rubrics
- arxiv url: http://arxiv.org/abs/2509.00496v1
- Date: Sat, 30 Aug 2025 13:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.257671
- Title: ResearchQA: Evaluating Scholarly Question Answering at Scale Across 75 Fields with Survey-Mined Questions and Rubrics
- Title(参考訳): ResearchQA:75分野を対象にした学術的質問応答の評価
- Authors: Li S. Yifei, Allen Chang, Chaitanya Malaviya, Mark Yatskar,
- Abstract要約: ResearchQAは、75の研究分野から21Kクエリと160Kルーブリックアイテムに調査項目を蒸留し、LCMシステムを評価するためのリソースである。
8フィールドの31のPh.D.アノテータによる評価では、クエリの96%がPh.D.情報ニーズをサポートしている。
我々はResearchQAを利用して、18のシステムにおける能力ギャップを7.6K以上のペアワイズ評価で分析する。
- 参考スコア(独自算出の注目度): 11.916911713137518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating long-form responses to research queries heavily relies on expert annotators, restricting attention to areas like AI where researchers can conveniently enlist colleagues. Yet, research expertise is widespread: survey articles synthesize knowledge distributed across the literature. We introduce ResearchQA, a resource for evaluating LLM systems by distilling survey articles from 75 research fields into 21K queries and 160K rubric items. Each rubric, derived jointly with queries from survey sections, lists query-specific answer evaluation criteria, i.e., citing papers, making explanations, and describing limitations. Assessments by 31 Ph.D. annotators in 8 fields indicate 96% of queries support Ph.D. information needs and 87% of rubric items should be addressed in system responses by a sentence or more. Using our rubrics, we are able to construct an automatic pairwise judge obtaining 74% agreement with expert judgments. We leverage ResearchQA to analyze competency gaps in 18 systems in over 7.6K pairwise evaluations. No parametric or retrieval-augmented system we evaluate exceeds 70% on covering rubric items, and the highest-ranking agentic system shows 75% coverage. Error analysis reveals that the highest-ranking system fully addresses less than 11% of citation rubric items, 48% of limitation items, and 49% of comparison items. We release our data to facilitate more comprehensive multi-field evaluations.
- Abstract(参考訳): 研究クエリに対するロングフォームレスポンスの評価は、専門家アノテータに大きく依存しており、研究者が同僚を便利に登録できるAIのような分野への注意を制限する。
しかし、研究の専門知識は広く、調査論文は文献に散在する知識を合成する。
我々は75の研究分野から21Kクエリと160Kルーブリックアイテムに調査項目を蒸留し,LLMシステムを評価するためのリソースであるResearchQAを紹介する。
各ルーリックは、調査セクションからのクエリと共同で派生し、クエリ固有の回答評価基準、すなわち、論文の引用、説明、制限の記述をリストアップする。
8フィールドの31のPh.D.アノテータによる評価では、クエリの96%がPh.D.情報のニーズをサポートし、87%が文以上のシステム応答に対処すべきである。
我々のルーリックを用いて、専門家の判断と74%の合意を得て、自動的なペアワイズ・ジャッジを構築することができる。
我々はResearchQAを利用して、18のシステムにおける能力ギャップを7.6K以上のペアワイズ評価で分析する。
パラメトリック・検索強化システムでは, 処理対象物の70%以上をカバーし, 上位のエージェント・システムでは75%のカバレッジを示した。
誤差分析の結果, 上位のシステムでは引用ルーブリック項目の11%未満, 制限項目の48%, 比較項目の49%に完全に対応していることがわかった。
我々は、より包括的なマルチフィールド評価を容易にするために、データを公開します。
関連論文リスト
- Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text [0.16385815610837165]
本稿では,Quranic Tafsir と Ahadith の領域内で質問応答を目的とした包括的データセットについて紹介する。
このデータセットは、73,000以上の質問応答ペアからなる堅牢なコレクションで構成されており、この特殊なドメインで報告されている最大のデータセットである。
本稿では,データセットのコントリビューションを強調しながら,その後の人的評価から,既存の自動評価手法の限界に関する批判的な洞察が得られた。
論文 参考訳(メタデータ) (2024-09-15T19:50:00Z) - The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review [36.74806978149457]
著者が提供するランキングは、機械学習カンファレンスでのピアレビュープロセスを改善するために利用することができる。
著者が提示したランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
本稿では,アイソトニック機構の慎重かつリスクの低いいくつかの応用と著者が提案する格付けをピアレビューで提案する。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Question answering systems for health professionals at the point of care
-- a systematic review [2.446313557261822]
質問応答システム(QA)は、医療専門家に最新の最も関係のある証拠を提供することで、医療の質を向上させる可能性がある。
この体系的なレビューは、現在の医療QAシステムを特徴づけ、医療への適合性を評価し、改善の領域を特定することを目的としている。
論文 参考訳(メタデータ) (2024-01-24T13:47:39Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。