論文の概要: EvalCards: A Framework for Standardized Evaluation Reporting
- arxiv url: http://arxiv.org/abs/2511.21695v1
- Date: Wed, 05 Nov 2025 19:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.33542
- Title: EvalCards: A Framework for Standardized Evaluation Reporting
- Title(参考訳): EvalCards: 標準化された評価レポートのためのフレームワーク
- Authors: Ruchira Dhar, Danae Sanchez Villegas, Antonia Karamolegkou, Alice Schiavone, Yifei Yuan, Xinyi Chen, Jiaang Li, Stella Frank, Laura De Grazia, Monorama Swain, Stephanie Brandl, Daniel Hershcovich, Anders Søgaard, Desmond Elliott,
- Abstract要約: 既存の標準化努力は依然として不十分であり、今後の道筋として評価開示カード(EvalCards)を導入している。
EvalCardsは、研究者と実践者の両方にとって透明性を高めると同時に、新たなガバナンス要件を満たすための実践的な基盤を提供するように設計されている。
- 参考スコア(独自算出の注目度): 42.91094436843639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation has long been a central concern in NLP, and transparent reporting practices are more critical than ever in today's landscape of rapidly released open-access models. Drawing on a survey of recent work on evaluation and documentation, we identify three persistent shortcomings in current reporting practices: reproducibility, accessibility, and governance. We argue that existing standardization efforts remain insufficient and introduce Evaluation Disclosure Cards (EvalCards) as a path forward. EvalCards are designed to enhance transparency for both researchers and practitioners while providing a practical foundation to meet emerging governance requirements.
- Abstract(参考訳): 評価は長い間、NLPにおいて中心的な関心事であり、現在急速にリリースされているオープンアクセスモデルの状況において、透過的なレポートプラクティスは、これまで以上に重要になっている。
最近の評価とドキュメンテーションに関する調査に基づいて、再現性、アクセシビリティ、ガバナンスという、現在のレポートプラクティスにおける3つの持続的な欠点を特定します。
既存の標準化努力は依然として不十分であり、今後の道筋として評価開示カード(EvalCards)を導入している。
EvalCardsは、研究者と実践者の両方にとって透明性を高めると同時に、新たなガバナンス要件を満たすための実践的な基盤を提供するように設計されている。
関連論文リスト
- Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。
EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。
本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文 参考訳(メタデータ) (2025-10-13T11:11:46Z) - STREAM (ChemBio): A Standard for Transparently Reporting Evaluations in AI Model Reports [5.223748947102951]
STREAM(A Standard for Transparently Reporting Evaluations in AI Model Reports)は、モデルレポートが評価結果を明らかにする方法を改善する標準である。
政府、市民社会、アカデミア、フロンティアAI企業の23人の専門家と協議して開発された。
論文 参考訳(メタデータ) (2025-08-13T14:36:36Z) - Pitfalls of Evaluating Language Models with Open Benchmarks [5.387340038770958]
本研究では,公的なテストセット上での不正行為のモデルを体系的に構築することで,これらの弱点を明らかにする。
オープンベンチマークにおける高いリーダボードのパフォーマンスは、必ずしも実際の効果を反映するとは限らない。
現在のベンチマークプラクティスの基本的な再評価は、堅牢で信頼性の高いLMアセスメントを保証するために不可欠である。
論文 参考訳(メタデータ) (2025-07-01T06:17:48Z) - TAPAS: A Pattern-Based Approach to Assessing Government Transparency [0.0]
TAPAS(Transparency Anti-Pattern Assessment System)について紹介する。
TAPASは、透明性を妨げる行動パターンを識別することで、政府の透明性を評価するために設計された、データ駆動の方法論である。
我々は、TAPASが継続的なモニタリングを可能にし、重要なリソース投資を必要とせず、実用的な洞察を提供することを示す。
論文 参考訳(メタデータ) (2025-05-22T09:01:42Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。