論文の概要: Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
- arxiv url: http://arxiv.org/abs/2505.00612v1
- Date: Thu, 01 May 2025 15:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.359848
- Title: Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation
- Title(参考訳): ポジション:AIコンペティションは、GenAI評価における経験則のゴールドスタンダードを提供する
- Authors: D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating,
- Abstract要約: 我々は、ジェネレーティブAIにおける経験的評価は、従来のML評価とベンチマーク戦略が、現代のGenAIモデルやシステムを評価する必要性を満たすには不十分であるため、危機点にあると主張している。
エムリークとエム汚染の問題は、実際、GenAI評価に対処する上で最も重要かつ困難な問題である。
この分野では、AIコンペティションを、GenAI評価における経験的厳密性のためのゴールドスタンダードと見なし、その成果を価値で活用し、回収する時が来た。
- 参考スコア(独自算出の注目度): 0.8588815305504908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this position paper, we observe that empirical evaluation in Generative AI is at a crisis point since traditional ML evaluation and benchmarking strategies are insufficient to meet the needs of evaluating modern GenAI models and systems. There are many reasons for this, including the fact that these models typically have nearly unbounded input and output spaces, typically do not have a well defined ground truth target, and typically exhibit strong feedback loops and prediction dependence based on context of previous model outputs. On top of these critical issues, we argue that the problems of {\em leakage} and {\em contamination} are in fact the most important and difficult issues to address for GenAI evaluations. Interestingly, the field of AI Competitions has developed effective measures and practices to combat leakage for the purpose of counteracting cheating by bad actors within a competition setting. This makes AI Competitions an especially valuable (but underutilized) resource. Now is time for the field to view AI Competitions as the gold standard for empirical rigor in GenAI evaluation, and to harness and harvest their results with according value.
- Abstract(参考訳): 本稿では,ジェネレーティブAIにおける経験的評価が危機点にあることを観察する。従来のML評価とベンチマーク戦略は,現代GenAIモデルとシステムの評価の必要性を満たすには不十分である。
これらのモデルが典型的には、ほとんど有界な入力空間と出力空間を持ち、通常は明確に定義された真理のターゲットを持たず、通常、前のモデル出力の文脈に基づいて強いフィードバックループと予測依存を示すという事実を含む、多くの理由がある。
これらの重要な問題に加えて、我々は実際、GenAI評価において対処すべき最も重要かつ困難な問題である、と論じている。
興味深いことに、AIコンペティション(AIコンペティション)の分野は、コンペティション設定内で悪役による不正行為に対抗するために、リークと戦う効果的な手段とプラクティスを開発した。
これにより、AIコンペティションは特に価値のある(しかし未使用)リソースになります。
この分野では、AIコンペティションを、GenAI評価における経験的厳密性のためのゴールドスタンダードと見なし、その成果を価値で活用し、回収する時が来た。
関連論文リスト
- Evaluation Framework for AI Systems in "the Wild" [37.48117853114386]
ジェネレーティブAI(GenAI)モデルは、業界全体で重要になっているが、現在の評価手法は、その普及に適応していない。
従来の評価は、しばしばベンチマークや固定データセットに依存し、実世界のパフォーマンスを反映しないことが多い。
本稿では,実世界のGenAIシステムを評価するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-23T14:52:39Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Hey GPT, Can You be More Racist? Analysis from Crowdsourced Attempts to Elicit Biased Content from Generative AI [41.96102438774773]
本研究は,GenAIツールから偏りのあるアウトプットを抽出するプロンプトの設計に参加者が挑戦する大学レベルのコンペから得られた知見を提示する。
我々は、競争の提出を定量的に質的に分析し、GenAIにおける多様なバイアスと、GenAIにおけるバイアスを誘発する参加者の戦略を同定する。
論文 参考訳(メタデータ) (2024-10-20T18:44:45Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - Conditional Fairness for Generative AIs [4.658756049231371]
GenAIの幅広い機能は、生成されるコンテキストに合わせて「条件フェアネス」を必要とする。
まず、生成した出力の公平さを、プロンプトとモデルとは独立に評価し、第二は中立なプロンプトで固有のフェアネスを評価する。
我々は,現在最先端のGenAIシステムで検証されている最小限の介入で条件フェアネスを強制する,エージェントベースのフレームワーク内で即時注入方式を開発する。
論文 参考訳(メタデータ) (2024-04-25T15:04:27Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。