論文の概要: Mapping global dynamics of benchmark creation and saturation in
artificial intelligence
- arxiv url: http://arxiv.org/abs/2203.04592v1
- Date: Wed, 9 Mar 2022 09:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 03:10:07.766800
- Title: Mapping global dynamics of benchmark creation and saturation in
artificial intelligence
- Title(参考訳): 人工知能におけるベンチマーク作成と飽和のグローバルダイナミクスのマッピング
- Authors: Adriano Barbosa-Silva, Simon Ott, Kathrin Blagec, Jan Brauner,
Matthias Samwald
- Abstract要約: ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
- 参考スコア(独自算出の注目度): 5.233652342195164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are crucial to measuring and steering progress in artificial
intelligence (AI). However, recent studies raised concerns over the state of AI
benchmarking, reporting issues such as benchmark overfitting, benchmark
saturation and increasing centralization of benchmark dataset creation. To
facilitate monitoring of the health of the AI benchmarking ecosystem, we
introduce methodologies for creating condensed maps of the global dynamics of
benchmark creation and saturation. We curated data for 1688 benchmarks covering
the entire domains of computer vision and natural language processing, and show
that a large fraction of benchmarks quickly trended towards near-saturation,
that many benchmarks fail to find widespread utilization, and that benchmark
performance gains for different AI tasks were prone to unforeseen bursts. We
conclude that future work should focus on large-scale community collaboration
and on mapping benchmark performance gains to real-world utility and impact of
AI.
- Abstract(参考訳): ベンチマークは、人工知能(AI)の進歩の測定と操縦に不可欠である。
しかし、最近の研究は、AIベンチマークの状況、ベンチマークオーバーフィット、ベンチマーク飽和、ベンチマークデータセット作成の集中化の増加といった問題を報告している。
AIベンチマークエコシステムの健全性の監視を容易にするため,ベンチマーク作成と飽和のグローバルなダイナミクスの凝縮マップを作成する手法を紹介した。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートし、ベンチマークの大部分がほぼ飽和状態に近づき、多くのベンチマークが広く利用できないこと、さまざまなAIタスクに対するベンチマークのパフォーマンス向上が予期せぬバーストの傾向にあることを示した。
今後の作業は、大規模なコミュニティコラボレーションと、実際のユーティリティとAIの影響に対するベンチマークのパフォーマンス向上のマッピングに焦点を当てるべきである、と結論付けている。
関連論文リスト
- Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Benchmarking Node Outlier Detection on Graphs [90.29966986023403]
グラフの外れ値検出は、多くのアプリケーションにおいて、新しいが重要な機械学習タスクである。
UNODと呼ばれるグラフに対して、最初の包括的教師なしノード外乱検出ベンチマークを示す。
論文 参考訳(メタデータ) (2022-06-21T01:46:38Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。