論文の概要: AI Benchmark Democratization and Carpentry
- arxiv url: http://arxiv.org/abs/2512.11588v1
- Date: Fri, 12 Dec 2025 14:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.798586
- Title: AI Benchmark Democratization and Carpentry
- Title(参考訳): AIベンチマークの民主化とカーポエント
- Authors: Gregor von Laszewski, Wesley Brewer, Jeyan Thiyagalingam, Juri Papay, Armstrong Foundjem, Piotr Luszczek, Murali Emani, Shirley V. Moore, Vijay Janapa Reddi, Matthew D. Sinclair, Sebastian Lobentanzer, Sujata Goswami, Benjamin Hawks, Marco Colombo, Nhan Tran, Christine R. Kirkpatrick, Abdulkareem Alsudais, Gregg Barrett, Tianhao Li, Kirsten Morehouse, Shivaram Venkataraman, Rutwik Jain, Kartik Mathur, Victor Lu, Tejinder Singh, Khojasteh Z. Mirza, Kongtao Chen, Sasidhar Kunapuli, Gavin Farrell, Renato Umeton, Geoffrey C. Fox,
- Abstract要約: 大規模な言語モデルはしばしば静的なベンチマークを行い、ベンチマーク結果と実世界のパフォーマンスのギャップを生じさせる。
現在のベンチマークでは、上位層のハードウェア上でのピークパフォーマンスを強調し、多様な実世界のシナリオに対する限られたガイダンスを提供することが多い。
民主化は、技術革新とレベルを越えた体系的な教育の両方を必要とし、ベンチマーク設計と使用において持続的な専門知識を構築する。
- 参考スコア(独自算出の注目度): 12.180796797521062
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Benchmarks are a cornerstone of modern machine learning, enabling reproducibility, comparison, and scientific progress. However, AI benchmarks are increasingly complex, requiring dynamic, AI-focused workflows. Rapid evolution in model architectures, scale, datasets, and deployment contexts makes evaluation a moving target. Large language models often memorize static benchmarks, causing a gap between benchmark results and real-world performance. Beyond traditional static benchmarks, continuous adaptive benchmarking frameworks are needed to align scientific assessment with deployment risks. This calls for skills and education in AI Benchmark Carpentry. From our experience with MLCommons, educational initiatives, and programs like the DOE's Trillion Parameter Consortium, key barriers include high resource demands, limited access to specialized hardware, lack of benchmark design expertise, and uncertainty in relating results to application domains. Current benchmarks often emphasize peak performance on top-tier hardware, offering limited guidance for diverse, real-world scenarios. Benchmarking must become dynamic, incorporating evolving models, updated data, and heterogeneous platforms while maintaining transparency, reproducibility, and interpretability. Democratization requires both technical innovation and systematic education across levels, building sustained expertise in benchmark design and use. Benchmarks should support application-relevant comparisons, enabling informed, context-sensitive decisions. Dynamic, inclusive benchmarking will ensure evaluation keeps pace with AI evolution and supports responsible, reproducible, and accessible AI deployment. Community efforts can provide a foundation for AI Benchmark Carpentry.
- Abstract(参考訳): ベンチマークは現代の機械学習の基礎であり、再現性、比較、科学的進歩を可能にする。
しかし、AIベンチマークはますます複雑になり、動的でAIにフォーカスしたワークフローが必要になる。
モデルアーキテクチャ、スケール、データセット、デプロイメントコンテキストの急速な進化は、評価を移動ターゲットにする。
大規模な言語モデルは、しばしば静的ベンチマークを記憶し、ベンチマーク結果と実世界のパフォーマンスのギャップを生じさせる。
従来の静的ベンチマーク以外にも、科学的評価とデプロイメントのリスクを調整するために、継続的適応型ベンチマークフレームワークが必要である。
これによりAI Benchmark Carpentryのスキルと教育が求められる。
MLCommonsや教育イニシアチブ、DOEのTrillionパラメータコンソーシアムのようなプログラムでの経験から、リソースの要求の高い要求、特別なハードウェアへのアクセスの制限、ベンチマーク設計の専門知識の欠如、アプリケーションドメインに関連する結果の不確実性など、大きな障壁があります。
現在のベンチマークでは、上位層のハードウェア上でのピークパフォーマンスを強調し、多様な実世界のシナリオに対する限られたガイダンスを提供することが多い。
ベンチマークは、進化するモデル、更新されたデータ、異種プラットフォームを取り入れつつ、透明性、再現性、解釈可能性を維持しながら、動的でなければならない。
民主化は、技術革新とレベルを越えた体系的な教育の両方を必要とし、ベンチマーク設計と使用において持続的な専門知識を構築する。
ベンチマークはアプリケーション関連の比較をサポートし、情報があり、コンテキストに敏感な決定を可能にする。
ダイナミックで包括的なベンチマークによって、評価はAIの進化と一致し、責任があり、再現可能で、アクセス可能なAIデプロイメントをサポートする。
コミュニティの取り組みは、AI Benchmark Carpentryの基礎を提供することができる。
関連論文リスト
- Benchmarking that Matters: Rethinking Benchmarking for Practical Impact [2.952553461344481]
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
論文 参考訳(メタデータ) (2025-11-15T15:42:15Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。