論文の概要: Recommendations and Reporting Checklist for Rigorous & Transparent Human Baselines in Model Evaluations
- arxiv url: http://arxiv.org/abs/2506.13776v1
- Date: Mon, 09 Jun 2025 04:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.121152
- Title: Recommendations and Reporting Checklist for Rigorous & Transparent Human Baselines in Model Evaluations
- Title(参考訳): モデル評価における厳密で透明な人間ベースラインの勧告と報告チェックリスト
- Authors: Kevin L. Wei, Patricia Paskov, Sunishchal Dev, Michael J. Byun, Anka Reuel, Xavier Roberts-Gaal, Rachel Calcott, Evie Coxon, Chinmay Deshpande,
- Abstract要約: ヒューマンパフォーマンスのベースラインは、機械学習コミュニティ、下流のユーザ、そして政策立案者がAI評価を解釈するために不可欠である。
モデルは「超人的」な性能を達成するとしばしば主張されるが、既存のベースライン法は十分な厳密さも十分に文書化されておらず、性能の違いをしっかりと測定し評価することができない。
我々は,提案する勧告を,基礎モデル評価において115人のベースラインを体系的にレビューするために使用するチェックリストに合成する。
- 参考スコア(独自算出の注目度): 0.5828231493848942
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this position paper, we argue that human baselines in foundation model evaluations must be more rigorous and more transparent to enable meaningful comparisons of human vs. AI performance, and we provide recommendations and a reporting checklist towards this end. Human performance baselines are vital for the machine learning community, downstream users, and policymakers to interpret AI evaluations. Models are often claimed to achieve "super-human" performance, but existing baselining methods are neither sufficiently rigorous nor sufficiently well-documented to robustly measure and assess performance differences. Based on a meta-review of the measurement theory and AI evaluation literatures, we derive a framework with recommendations for designing, executing, and reporting human baselines. We synthesize our recommendations into a checklist that we use to systematically review 115 human baselines (studies) in foundation model evaluations and thus identify shortcomings in existing baselining methods; our checklist can also assist researchers in conducting human baselines and reporting results. We hope our work can advance more rigorous AI evaluation practices that can better serve both the research community and policymakers. Data is available at: https://github.com/kevinlwei/human-baselines
- Abstract(参考訳): 本稿では,基礎モデル評価における人間ベースラインは,人間とAIのパフォーマンスを有意義に比較するために,より厳密で透明でなければならないと論じ,この目的に向けて勧告と報告チェックリストを提供する。
ヒューマンパフォーマンスのベースラインは、機械学習コミュニティ、下流のユーザ、そして政策立案者がAI評価を解釈するために不可欠である。
モデルは「超人的」な性能を達成するとしばしば主張されるが、既存のベースライン法は十分な厳密さも十分に文書化されておらず、性能の違いをしっかりと測定し評価することができない。
測定理論とAI評価文献のメタレビューに基づいて、人間のベースラインの設計、実行、報告を推奨する枠組みを導出する。
我々は,提案する勧告を,基礎モデル評価における115人のベースライン(研究)を体系的にレビューするために使用するチェックリストに合成し,既存のベースライン手法の欠点を特定する。
私たちは、研究コミュニティと政策立案者の両方に役立てられるような、より厳格なAI評価の実践を進めることができることを願っています。
データは、https://github.com/kevinlwei/ Human-baselines.comで入手できる。
関連論文リスト
- From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Maximizing Signal in Human-Model Preference Alignment [0.0]
本稿では、エンドユーザーがMLモデルによる決定に同意する必要がある場合、モデルが好みを表すデータに基づいて訓練され、評価されるべきである、と論じる。
評価手法のベストプラクティスに固執することで,ラベル付け不一致のノイズを最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-03-06T19:10:57Z) - Objective Metrics for Human-Subjects Evaluation in Explainable Reinforcement Learning [0.47355466227925036]
説明は基本的に人間のプロセスである。説明の目的と聴衆を理解することは不可欠である。
説明可能な強化学習(XRL)に関する既存の研究は、その評価において人間に日常的に相談しない。
本稿では,観察可能な行動と行動可能な行動に基づく説明評価に客観的な人的指標を使用するよう研究者に呼びかける。
論文 参考訳(メタデータ) (2025-01-31T16:12:23Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。