論文の概要: Bosch Deep Learning Hardware Benchmark
- arxiv url: http://arxiv.org/abs/2008.10293v1
- Date: Mon, 24 Aug 2020 09:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 08:59:33.603089
- Title: Bosch Deep Learning Hardware Benchmark
- Title(参考訳): boschディープラーニングハードウェアベンチマーク
- Authors: Armin Runge (1) and Thomas Wenzel (2) and Dimitrios Bariamis (2) and
Benedikt Sebastian Staffler (3) and Lucas Rego Drumond (2) and Michael
Pfeiffer (3) ((1) Department of Advanced Digital Technologies, Bosch
Corporate Research, Renningen, Germany, (2) Computer Vision Lab, Bosch
Corporate Research, Hildesheim, Germany, (3) Bosch Center for Artificial
Intelligence, Renningen, Germany)
- Abstract要約: 科学や産業におけるディープラーニング(DL)の応用は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of Deep Learning (DL) applications in science and industry
has created a large demand for efficient inference systems. This has resulted
in a rapid increase of available Hardware Accelerators (HWAs) making comparison
challenging and laborious. To address this, several DL hardware benchmarks have
been proposed aiming at a comprehensive comparison for many models, tasks, and
hardware platforms. Here, we present our DL hardware benchmark which has been
specifically developed for inference on embedded HWAs and tasks required for
autonomous driving. In addition to previous benchmarks, we propose a new
granularity level to evaluate common submodules of DL models, a twofold
benchmark procedure that accounts for hardware and model optimizations done by
HWA manufacturers, and an extended set of performance indicators that can help
to identify a mismatch between a HWA and the DL models used in our benchmark.
- Abstract(参考訳): 科学や産業におけるディープラーニング(DL)応用の普及は、効率的な推論システムに対する大きな需要を生み出している。
これにより、ハードウェアアクセラレータ(HWA)が急速に増加し、比較が困難かつ困難になった。
これに対処するために、多くのモデル、タスク、ハードウェアプラットフォームの包括的な比較を目的としたいくつかのdlハードウェアベンチマークが提案されている。
本稿では、組込みHWAと自律運転に必要なタスクを推論するために特別に開発されたDLハードウェアベンチマークを示す。
従来のベンチマークに加えて,DLモデルの共通部分加群を評価するための新たな粒度レベル,HWAメーカによるハードウェアおよびモデル最適化を考慮に入れた2倍のベンチマーク手順,ベンチマークで使用されるHWAモデルとDLモデルのミスマッチを識別するためのパフォーマンス指標の拡張などを提案する。
関連論文リスト
- LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators [1.1028525384019312]
LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。
LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。
ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
論文 参考訳(メタデータ) (2024-10-31T18:34:59Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - BOLT: An Automated Deep Learning Framework for Training and Deploying
Large-Scale Search and Recommendation Models on Commodity CPU Hardware [28.05159031634185]
BOLTは、標準CPUハードウェア上で大規模な検索とレコメンデーションモデルをトレーニングするための、疎いディープラーニングライブラリである。
製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。
論文 参考訳(メタデータ) (2023-03-30T22:03:43Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Semantic Scene Segmentation for Robotics Applications [51.66271681532262]
様々な設定の下で,最も成功したセマンティックシーンセグメンテーションモデルの動作を,展開(推論)速度の観点から検討する。
この研究の目的は、ロボット工学の応用要件に最も適合しているものを選択するために、現在の最先端セグメンテーションモデルの比較研究を提供することである。
論文 参考訳(メタデータ) (2021-08-25T08:55:20Z) - Horizontally Fused Training Array: An Effective Hardware Utilization
Squeezer for Training Novel Deep Learning Models [8.055533378391814]
単一加速器のトレーニングジョブが繰り返し起動した場合,クラスタ全体のリソース消費を支配していることを示す。
本稿では,DL研究者や実践者が新たなDLトレーニングワークロードのハードウェア利用を効果的かつ容易に向上するために,水平混合訓練アレイ(HFTA)を提案する。
HFTAは、ハードウェア使用量の削減に強い効果を示し、個別のアクセラレータ上で各ジョブを実行する標準的なプラクティスと比較して、最大15.1倍のトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2021-02-03T23:56:55Z) - InferBench: Understanding Deep Learning Inference Serving with an
Automatic Benchmarking System [15.473926972382241]
ディープラーニング(DL)開発者のための,自動かつ包括的なベンチマークシステムを実装した。
我々のシステムは,DLクラスタ内のリーダサーバにデプロイされ,ユーザのベンチマークジョブをフォローワーワーカにディスパッチする。
開発者はシステム内のさまざまな分析ツールやモデルを活用して、さまざまなシステム構成のトレードオフに関する洞察を得ることができます。
論文 参考訳(メタデータ) (2020-11-04T14:56:57Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。