論文の概要: Bosch Deep Learning Hardware Benchmark
- arxiv url: http://arxiv.org/abs/2008.10293v1
- Date: Mon, 24 Aug 2020 09:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 08:59:33.603089
- Title: Bosch Deep Learning Hardware Benchmark
- Title(参考訳): boschディープラーニングハードウェアベンチマーク
- Authors: Armin Runge (1) and Thomas Wenzel (2) and Dimitrios Bariamis (2) and
Benedikt Sebastian Staffler (3) and Lucas Rego Drumond (2) and Michael
Pfeiffer (3) ((1) Department of Advanced Digital Technologies, Bosch
Corporate Research, Renningen, Germany, (2) Computer Vision Lab, Bosch
Corporate Research, Hildesheim, Germany, (3) Bosch Center for Artificial
Intelligence, Renningen, Germany)
- Abstract要約: 科学や産業におけるディープラーニング(DL)の応用は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of Deep Learning (DL) applications in science and industry
has created a large demand for efficient inference systems. This has resulted
in a rapid increase of available Hardware Accelerators (HWAs) making comparison
challenging and laborious. To address this, several DL hardware benchmarks have
been proposed aiming at a comprehensive comparison for many models, tasks, and
hardware platforms. Here, we present our DL hardware benchmark which has been
specifically developed for inference on embedded HWAs and tasks required for
autonomous driving. In addition to previous benchmarks, we propose a new
granularity level to evaluate common submodules of DL models, a twofold
benchmark procedure that accounts for hardware and model optimizations done by
HWA manufacturers, and an extended set of performance indicators that can help
to identify a mismatch between a HWA and the DL models used in our benchmark.
- Abstract(参考訳): 科学や産業におけるディープラーニング(DL)応用の普及は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
これに対処するために、多くのモデル、タスク、ハードウェアプラットフォームの包括的な比較を目的としたいくつかのdlハードウェアベンチマークが提案されている。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークを示す。
従来のベンチマークに加えて,DLモデルの共通部分加群を評価するための新たな粒度レベル,HWAメーカによるハードウェアおよびモデル最適化を考慮に入れた2倍のベンチマーク手順,ベンチマークで使用されるHWAモデルとDLモデルのミスマッチを識別するためのパフォーマンス指標の拡張などを提案する。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - BOLT: An Automated Deep Learning Framework for Training and Deploying
Large-Scale Search and Recommendation Models on Commodity CPU Hardware [28.05159031634185]
BOLTは、標準CPUハードウェア上で大規模な検索とレコメンデーションモデルをトレーニングするための、疎いディープラーニングライブラリである。
製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。
論文 参考訳(メタデータ) (2023-03-30T22:03:43Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Semantic Scene Segmentation for Robotics Applications [51.66271681532262]
様々な設定の下で,最も成功したセマンティックシーンセグメンテーションモデルの動作を,展開(推論)速度の観点から検討する。
この研究の目的は、ロボット工学の応用要件に最も適合しているものを選択するために、現在の最先端セグメンテーションモデルの比較研究を提供することである。
論文 参考訳(メタデータ) (2021-08-25T08:55:20Z) - Horizontally Fused Training Array: An Effective Hardware Utilization
Squeezer for Training Novel Deep Learning Models [8.055533378391814]
単一加速器のトレーニングジョブが繰り返し起動した場合,クラスタ全体のリソース消費を支配していることを示す。
本稿では,DL研究者や実践者が新たなDLトレーニングワークロードのハードウェア利用を効果的かつ容易に向上するために,水平混合訓練アレイ(HFTA)を提案する。
HFTAは、ハードウェア使用量の削減に強い効果を示し、個別のアクセラレータ上で各ジョブを実行する標準的なプラクティスと比較して、最大15.1倍のトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2021-02-03T23:56:55Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z) - InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System [15.473926972382241]
ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
論文 参考訳(メタデータ) (2020-11-04T14:56:57Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。