論文の概要: Eval Factsheets: A Structured Framework for Documenting AI Evaluations
- arxiv url: http://arxiv.org/abs/2512.04062v1
- Date: Wed, 03 Dec 2025 18:46:50 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:23.106313
- Title: Eval Factsheets: A Structured Framework for Documenting AI Evaluations
- Title(参考訳): Eval Factsheets: AI評価のドキュメント化のための構造化フレームワーク
- Authors: Florian Bordes, Candace Ross, Justine T Kao, Evangelia Spiliopoulou, Adina Williams,
- Abstract要約: 我々は,AIシステム評価を文書化するためのフレームワークであるEval Factsheetsを紹介する。
本フレームワークは,5つの基本次元にまたがって評価特性を整理する。
Eval Factsheetsは様々な評価パラダイムを効果的に捉えていることを示す。
- 参考スコア(独自算出の注目度): 18.275882528334794
- License:
- Abstract: The rapid proliferation of benchmarks has created significant challenges in reproducibility, transparency, and informed decision-making. However, unlike datasets and models -- which benefit from structured documentation frameworks like Datasheets and Model Cards -- evaluation methodologies lack systematic documentation standards. We introduce Eval Factsheets, a structured, descriptive framework for documenting AI system evaluations through a comprehensive taxonomy and questionnaire-based approach. Our framework organizes evaluation characteristics across five fundamental dimensions: Context (Who made the evaluation and when?), Scope (What does it evaluate?), Structure (With what the evaluation is built?), Method (How does it work?) and Alignment (In what ways is it reliable/valid/robust?). We implement this taxonomy as a practical questionnaire spanning five sections with mandatory and recommended documentation elements. Through case studies on multiple benchmarks, we demonstrate that Eval Factsheets effectively captures diverse evaluation paradigms -- from traditional benchmarks to LLM-as-judge methodologies -- while maintaining consistency and comparability. We hope Eval Factsheets are incorporated into both existing and newly released evaluation frameworks and lead to more transparency and reproducibility.
- Abstract(参考訳): ベンチマークの急速な普及は、再現性、透明性、情報的意思決定において大きな課題を生み出している。
しかし、データセットやモデル -- DatasheetやModel Cardのような構造化ドキュメントフレームワークの恩恵を受ける -- とは異なり、評価手法は体系的なドキュメント標準を欠いている。
Eval Factsheetsは、包括的な分類学とアンケートに基づくアプローチを通じて、AIシステム評価を文書化するための構造化された記述型フレームワークである。
フレームワークは、コンテキスト(誰が評価し、いつ評価したか)、スコープ(何を評価したか?)、構造(どの評価が構築されているか?)、メソッド(どのように動作するか?)、アライメント(信頼できるか、無効か?
本分類法は,5つのセクションにまたがる,必須かつ推奨の文書要素による実践的なアンケートとして実装されている。
複数のベンチマークのケーススタディを通じて、Eval Factsheetsは、一貫性と互換性を維持しながら、従来のベンチマークからLCM-as-judge方法論まで、さまざまな評価パラダイムを効果的に捉えています。
Eval Factsheetが既存の評価フレームワークと新しくリリースされた評価フレームワークに組み込まれ、透明性と再現性の向上を期待しています。
関連論文リスト
- WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。
広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文 参考訳(メタデータ) (2024-08-06T16:28:30Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [15.19714327680248]
チェックリストに基づく評価フレームワークであるCheckEvalを導入する。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization [13.736656652049884]
マルチモーダル要約は入力テキストと画像に基づいて簡潔な要約を生成することを目的としている。
マルチモーダル要約モデルの現実性を評価するために,2つのきめ細かな説明可能な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T01:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。