論文の概要: Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks
- arxiv url: http://arxiv.org/abs/2603.06942v1
- Date: Fri, 06 Mar 2026 23:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.417464
- Title: Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks
- Title(参考訳): 深部調査・浅部評価:長期QAベンチマークにおけるメタ評価の事例研究
- Authors: Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman,
- Abstract要約: ScholarQA-CS2を用いた長期QAベンチマークのメタ評価のケーススタディを行う。
人間の選好判断を通じてベンチマークを検証し、このアプローチの強み、弱点、共同創設者を批判的に検証する。
提案手法では,一対の選好ランクがシステムレベルの評価に最適であるのに対して,明示的な計量レベルのアノテーションや専門家アノテータは信頼性の高い計量レベルの評価に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 40.91183014128371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances have made long-form report-generating systems widely available. This has prompted evaluation frameworks that use LLM-as-judge protocols and claim verification, along with meta-evaluation frameworks that seek to validate these methods. Many of the meta-evaluations estimate an evaluation quality's by comparing its assessments against human pairwise preferences. Prior work, however, suggests that human pairwise preference may be overly simplistic and can fail to capture nuances of expert expectations. We conduct a case study in meta-evaluation for long-form QA benchmarks using ScholarQA-CS2, a benchmark designed for assessing retrieval-augmented deep-research QA in the scientific domain. We comprehensively validate the benchmark through human pairwise preference judgments, then critically examine the strengths, weaknesses, and confounders of this approach. We show that pairwise preference rankings are best suited for system-level evaluation, while explicit metric-wise annotations and expert annotators are critical for reliable metric-level assessment, with subjectivity remaining a key challenge. Based on our findings, we offer practical guidelines for designing future meta-evaluations that better align evaluation methods, annotator expertise, and reporting practices. By surfacing these methodological challenges, we aim to advance evaluation standards for deep-research systems.
- Abstract(参考訳): 近年の進歩により、長期的なレポート生成システムが広く利用できるようになった。
これにより、LCM-as-judgeプロトコルとクレーム検証を使用する評価フレームワークと、これらのメソッドを検証するメタ評価フレームワークが導入された。
メタ評価の多くは、その評価と人間のペアワイズ選好を比較して評価品質を推定する。
しかしながら、以前の研究は、人間のペアワイドな好みは過度に単純であり、専門家の期待するニュアンスを捉えることに失敗する可能性があることを示唆している。
ScholarQA-CS2(ScholarQA-CS2)を用いた長期QAベンチマークのメタ評価のケーススタディを行う。
我々は、人間のペアワイズ選好判断を通じてベンチマークを包括的に検証し、このアプローチの強み、弱点、および共同創設者を批判的に検証する。
提案手法では,一対の選好ランクがシステムレベルの評価に最適であるのに対して,明示的な計量レベルのアノテーションや専門家アノテータは信頼性の高い計量レベルの評価に重要であり,主観性は重要な課題である。
本研究は,評価手法,アノテーションの専門知識,報告プラクティスをより良く整合させる,将来的なメタ評価を設計するための実践的ガイドラインを提供する。
これらの方法論的課題を克服し,深層調査システムの評価基準の策定を目指す。
関連論文リスト
- The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Evaluating Step-by-step Reasoning Traces: A Survey [8.279021694489462]
ステップバイステップ推論は、複雑な問題における大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
既存の評価プラクティスは非常に一貫性がなく、その結果、評価器の設計とベンチマーク開発の間に断片的な進歩をもたらす。
本調査は,4つのトップレベルカテゴリー(実効性,妥当性,一貫性,実用性)による評価基準の分類について提案する。
論文 参考訳(メタデータ) (2025-02-17T19:58:31Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。