論文の概要: AIBench Training: Balanced Industry-Standard AI Training Benchmarking
- arxiv url: http://arxiv.org/abs/2004.14690v4
- Date: Wed, 10 Mar 2021 06:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:21:59.937959
- Title: AIBench Training: Balanced Industry-Standard AI Training Benchmarking
- Title(参考訳): aibench training: 業界標準のaiトレーニングベンチマーク
- Authors: Fei Tang, Wanling Gao, Jianfeng Zhan, Chuanxin Lan, Xu Wen, Lei Wang,
Chunjie Luo, Jiahui Dai, Zheng Cao, Xingwang Xiong, Zihan Jiang, Tianshu Hao,
Fanda Fan, Fan Zhang, Yunyou Huang, Jianan Chen, Mengjia Du, Rui Ren, Chen
Zheng, Daoyi Zheng, Haoning Tang, Kunlin Zhan, Biao Wang, Defei Kong, Minghe
Yu, Chongkang Tan, Huan Li, Xinhui Tian, Yatao Li, Junchao Shao, Zhenyu Wang,
Xiaoyu Wang, and Hainan Ye
- Abstract要約: 新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
- 参考スコア(独自算出の注目度): 26.820244556465333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Earlier-stage evaluations of a new AI architecture/system need affordable
benchmarks. Only using a few AI component benchmarks like MLPerfalone in the
other stages may lead to misleading conclusions. Moreover, the learning
dynamics are not well understood, and the benchmarks' shelf-life is short. This
paper proposes a balanced benchmarking methodology. We use real-world
benchmarks to cover the factors space that impacts the learning dynamics to the
most considerable extent. After performing an exhaustive survey on Internet
service AI domains, we identify and implement nineteen representative AI tasks
with state-of-the-art models. For repeatable performance ranking (RPR subset)
and workload characterization (WC subset), we keep two subsets to a minimum for
affordability. We contribute by far the most comprehensive AI training
benchmark suite. The evaluations show: (1) AIBench Training (v1.1) outperforms
MLPerfTraining (v0.7) in terms of diversity and representativeness of model
complexity, computational cost, convergent rate, computation, and memory access
patterns, and hotspot functions; (2) Against the AIBench full benchmarks, its
RPR subset shortens the benchmarking cost by 64%, while maintaining the primary
workload characteristics; (3) The performance ranking shows the single-purpose
AI accelerator like TPU with the optimized TensorFlowframework performs better
than that of GPUs while losing the latter's general support for various AI
models. The specification, source code, and performance numbers are available
from the AIBench homepage
https://www.benchcouncil.org/aibench-training/index.html.
- Abstract(参考訳): 新しいAIアーキテクチャ/システムの初期評価には、安価なベンチマークが必要だ。
MLPerfaloneのようないくつかのAIコンポーネントベンチマークのみを他の段階で使用すると、誤った結論につながる可能性がある。
さらに、学習のダイナミクスはよく理解されておらず、ベンチマークのシェルフライフは短い。
本稿では,バランスの取れたベンチマーク手法を提案する。
私たちは現実世界のベンチマークを使って、学習力学に最も大きな影響を及ぼす要因をカバーしています。
インターネットサービスAIドメインに関する徹底的な調査を行い、最先端のモデルを用いて19の代表的なAIタスクを特定し、実装する。
リピータブルなパフォーマンスランキング(RPRサブセット)とワークロード評価(WCサブセット)では、2つのサブセットを最低限に抑える。
私たちはこれまでで最も包括的なAIトレーニングベンチマークスイートに貢献しています。
The evaluations show: (1) AIBench Training (v1.1) outperforms MLPerfTraining (v0.7) in terms of diversity and representativeness of model complexity, computational cost, convergent rate, computation, and memory access patterns, and hotspot functions; (2) Against the AIBench full benchmarks, its RPR subset shortens the benchmarking cost by 64%, while maintaining the primary workload characteristics; (3) The performance ranking shows the single-purpose AI accelerator like TPU with the optimized TensorFlowframework performs better than that of GPUs while losing the latter's general support for various AI models.
仕様、ソースコード、パフォーマンス番号はAIBenchのホームページ https://www.benchcouncil.org/aibench-training/index.htmlから入手できる。
関連論文リスト
- Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level [73.14232472724758]
我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。
経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。
キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Does AI for science need another ImageNet Or totally different
benchmarks? A case study of machine learning force fields [5.622820801789953]
AI for Science(AI4S)は、機械学習手法を用いて科学計算タスクの精度とスピードを高めることを目的としている。
従来のAIベンチマーク手法は、トレーニング、テスト、将来の現実世界のクエリが独立して同一に分散されていると仮定するため、AI4Sが引き起こすユニークな課題に適応するのに苦労する。
本稿では,機械学習力場(MLFF)をケーススタディとして,科学のためのAIを効果的にベンチマークするための新しいアプローチの必要性について検討する。
論文 参考訳(メタデータ) (2023-08-11T08:06:58Z) - Is One Epoch All You Need For Multi-Fidelity Hyperparameter
Optimization? [17.21160278797221]
MF-HPO(Multi-fidelity HPO)は、学習過程における中間精度レベルを活用し、早期に低性能モデルを捨てる。
様々な代表的MF-HPO法を,古典的ベンチマークデータに基づく単純なベースラインと比較した。
このベースラインは、計算量を大幅に減らしながら、同等の結果を得た。
論文 参考訳(メタデータ) (2023-07-28T09:14:41Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。