論文の概要: More than Marketing? On the Information Value of AI Benchmarks for Practitioners
- arxiv url: http://arxiv.org/abs/2412.05520v1
- Date: Sat, 07 Dec 2024 03:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:37.860264
- Title: More than Marketing? On the Information Value of AI Benchmarks for Practitioners
- Title(参考訳): マーケティング以上に? 実践者のためのAIベンチマークの情報価値について
- Authors: Amelia Hardy, Anka Reuel, Kiana Jafari Meimandi, Lisa Soder, Allie Griffith, Dylan M. Asmar, Sanmi Koyejo, Michael S. Bernstein, Mykel J. Kochenderfer,
- Abstract要約: 学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
- 参考スコア(独自算出の注目度): 42.73526862595375
- License:
- Abstract: Public AI benchmark results are widely broadcast by model developers as indicators of model quality within a growing and competitive market. However, these advertised scores do not necessarily reflect the traits of interest to those who will ultimately apply AI models. In this paper, we seek to understand if and how AI benchmarks are used to inform decision-making. Based on the analyses of interviews with 19 individuals who have used, or decided against using, benchmarks in their day-to-day work, we find that across these settings, participants use benchmarks as a signal of relative performance difference between models. However, whether this signal was considered a definitive sign of model superiority, sufficient for downstream decisions, varied. In academia, public benchmarks were generally viewed as suitable measures for capturing research progress. By contrast, in both product and policy, benchmarks -- even those developed internally for specific tasks -- were often found to be inadequate for informing substantive decisions. Of the benchmarks deemed unsatisfactory, respondents reported that their goals were neither well-defined nor reflective of real-world use. Based on the study results, we conclude that effective benchmarks should provide meaningful, real-world evaluations, incorporate domain expertise, and maintain transparency in scope and goals. They must capture diverse, task-relevant capabilities, be challenging enough to avoid quick saturation, and account for trade-offs in model performance rather than relying on a single score. Additionally, proprietary data collection and contamination prevention are critical for producing reliable and actionable results. By adhering to these criteria, benchmarks can move beyond mere marketing tricks into robust evaluative frameworks.
- Abstract(参考訳): パブリックAIベンチマークの結果は、成長と競争の激しい市場におけるモデル品質の指標として、モデル開発者によって広く放送されている。
しかし、これらの宣伝されたスコアは、最終的にAIモデルを適用する人々にとって、必ずしも興味のある特徴を反映しているわけではない。
本稿では,AIベンチマークが意思決定にどのように利用されているかを理解することを目的とする。
日々の作業でベンチマークを使用したり、使用に反対した19人のインタビューの分析から、参加者はこれらの設定の中で、モデル間の相対的なパフォーマンス差のシグナルとしてベンチマークを使うことに気付きました。
しかし、この信号がモデル優越性の明確な兆候であるか否かは、下流の判断に十分である。
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
対照的に、製品とポリシーの両方では、特定のタスクのために社内で開発されたベンチマークでさえ、実質的な決定を下すのに不十分であることがしばしば見出されました。
ベンチマークが不十分と判断された場合、回答者は彼らの目標が十分に定義されておらず、実際の使用を反映していないと報告した。
研究結果から,有効なベンチマークは実世界の有意義な評価を提供し,ドメインの専門知識を取り入れ,スコープと目標の透明性を維持するべきであると結論付けた。
それらは多種多様なタスク関連能力をキャプチャし、迅速な飽和を避けるのに十分な挑戦をし、単一のスコアに頼るのではなく、モデルパフォーマンスにおけるトレードオフを考慮しなければなりません。
さらに、プロプライエタリなデータ収集と汚染防止は信頼性と実用的な結果を生み出すために重要である。
これらの基準に従うことで、ベンチマークは単なるマーケティングのトリックを越えて、堅牢な評価フレームワークに移行することができる。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - A Comparative Analysis on Ethical Benchmarking in Large Language Models [0.0]
この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。
我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。
医用領域の現実的な倫理的ジレンマを特徴とするTriage BenchmarkとMedicical Law (MedLaw) Benchmarkの2つのMEベンチマークを紹介した。
論文 参考訳(メタデータ) (2024-10-11T05:05:21Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文 参考訳(メタデータ) (2023-05-05T07:44:23Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。