論文の概要: Mapping global dynamics of benchmark creation and saturation in
artificial intelligence
- arxiv url: http://arxiv.org/abs/2203.04592v1
- Date: Wed, 9 Mar 2022 09:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 03:10:07.766800
- Title: Mapping global dynamics of benchmark creation and saturation in
artificial intelligence
- Title(参考訳): 人工知能におけるベンチマーク作成と飽和のグローバルダイナミクスのマッピング
- Authors: Adriano Barbosa-Silva, Simon Ott, Kathrin Blagec, Jan Brauner,
Matthias Samwald
- Abstract要約: ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
- 参考スコア(独自算出の注目度): 5.233652342195164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are crucial to measuring and steering progress in artificial
intelligence (AI). However, recent studies raised concerns over the state of AI
benchmarking, reporting issues such as benchmark overfitting, benchmark
saturation and increasing centralization of benchmark dataset creation. To
facilitate monitoring of the health of the AI benchmarking ecosystem, we
introduce methodologies for creating condensed maps of the global dynamics of
benchmark creation and saturation. We curated data for 1688 benchmarks covering
the entire domains of computer vision and natural language processing, and show
that a large fraction of benchmarks quickly trended towards near-saturation,
that many benchmarks fail to find widespread utilization, and that benchmark
performance gains for different AI tasks were prone to unforeseen bursts. We
conclude that future work should focus on large-scale community collaboration
and on mapping benchmark performance gains to real-world utility and impact of
AI.
- Abstract(参考訳): ベンチマークは、人工知能(AI)の進歩の測定と操縦に不可欠である。
しかし、最近の研究は、AIベンチマークの状況、ベンチマークオーバーフィット、ベンチマーク飽和、ベンチマークデータセット作成の集中化の増加といった問題を報告している。
AIベンチマークエコシステムの健全性の監視を容易にするため,ベンチマーク作成と飽和のグローバルなダイナミクスの凝縮マップを作成する手法を紹介した。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートし、ベンチマークの大部分がほぼ飽和状態に近づき、多くのベンチマークが広く利用できないこと、さまざまなAIタスクに対するベンチマークのパフォーマンス向上が予期せぬバーストの傾向にあることを示した。
今後の作業は、大規模なコミュニティコラボレーションと、実際のユーティリティとAIの影響に対するベンチマークのパフォーマンス向上のマッピングに焦点を当てるべきである、と結論付けている。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。
本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。
実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文 参考訳(メタデータ) (2024-06-07T03:09:22Z) - A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文 参考訳(メタデータ) (2023-05-05T07:44:23Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Benchmarking Node Outlier Detection on Graphs [90.29966986023403]
グラフの外れ値検出は、多くのアプリケーションにおいて、新しいが重要な機械学習タスクである。
UNODと呼ばれるグラフに対して、最初の包括的教師なしノード外乱検出ベンチマークを示す。
論文 参考訳(メタデータ) (2022-06-21T01:46:38Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。