論文の概要: Larq Compute Engine: Design, Benchmark, and Deploy State-of-the-Art
Binarized Neural Networks
- arxiv url: http://arxiv.org/abs/2011.09398v2
- Date: Fri, 19 Feb 2021 22:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:38:29.344676
- Title: Larq Compute Engine: Design, Benchmark, and Deploy State-of-the-Art
Binarized Neural Networks
- Title(参考訳): larq compute engine: 最先端のバイナリニューラルネットワークの設計、ベンチマーク、デプロイ
- Authors: Tom Bannink, Arash Bakhtiari, Adam Hillier, Lukas Geiger, Tim de
Bruin, Leon Overweel, Jelmer Neeven, Koen Helwegen
- Abstract要約: 本稿では,世界最速のバイナリニューラルネットワーク(BNN)推論エンジンであるLar Computeq Engineを紹介する。
LCEは、バイナリ操作の高度に最適化された実装を提供し、Pixel 1の完全な精度と比較して、バイナリの畳み込みを8.5から18.5倍加速する。
我々は、ImageNetのレイテンシと精度で既存のバイナリネットワークよりも優れた、シンプルで再現しやすいBNNであるQuickNetを開発した。
- 参考スコア(独自算出の注目度): 2.0584583078037633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Larq Compute Engine, the world's fastest Binarized Neural
Network (BNN) inference engine, and use this framework to investigate several
important questions about the efficiency of BNNs and to design a new
state-of-the-art BNN architecture. LCE provides highly optimized
implementations of binary operations and accelerates binary convolutions by 8.5
- 18.5x compared to their full-precision counterparts on Pixel 1 phones. LCE's
integration with Larq and a sophisticated MLIR-based converter allow users to
move smoothly from training to deployment. By extending TensorFlow and
TensorFlow Lite, LCE supports models which combine binary and full-precision
layers, and can be easily integrated into existing applications. Using LCE, we
analyze the performance of existing BNN computer vision architectures and
develop QuickNet, a simple, easy-to-reproduce BNN that outperforms existing
binary networks in terms of latency and accuracy on ImageNet. Furthermore, we
investigate the impact of full-precision shortcuts and the relationship between
number of MACs and model latency. We are convinced that empirical performance
should drive BNN architecture design and hope this work will facilitate others
to design, benchmark and deploy binary models.
- Abstract(参考訳): 本稿では,世界最速のバイナリニューラルネットワーク(BNN)推論エンジンであるLarq Compute Engineを紹介し,このフレームワークを用いてBNNの効率性に関する重要な問題を調査し,最先端のBNNアーキテクチャを設計する。
LCEはバイナリ操作の高度に最適化された実装を提供し、Pixel 1の完全な精度と比較して、バイナリの畳み込みを8.5から18.5倍加速する。
LCEとLarqの統合と高度なMLIRベースのコンバータにより、ユーザはトレーニングからデプロイメントまでスムーズに移動できる。
TensorFlowとTensorFlow Liteを拡張することで、LCEはバイナリ層とフル精度層を組み合わせたモデルをサポートし、既存のアプリケーションに容易に統合できる。
LCEを用いて、既存のBNNコンピュータビジョンアーキテクチャの性能を分析し、ImageNet上でのレイテンシと精度で既存のバイナリネットワークを上回る、シンプルで再現しやすいBNNであるQuickNetを開発する。
さらに,完全精度のショートカットの影響とMAC数とモデル遅延の関係について検討する。
私たちは、経験的なパフォーマンスがbnnアーキテクチャ設計を駆動し、この作業が他の人がバイナリモデルの設計、ベンチマーク、デプロイを促進することを期待しています。
関連論文リスト
- RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。
本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。
NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-09-27T15:35:36Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Basic Binary Convolution Unit for Binarized Image Restoration Network [146.0988597062618]
本研究では,画像復元作業における残差接続,BatchNorm,アクティベーション機能,構造などのバイナリ畳み込みのコンポーネントを再検討する。
本研究の成果と分析に基づいて, 単純で効率的な基本二元畳み込みユニット (BBCU) を設計した。
我々のBBCUは、他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示しています。
論文 参考訳(メタデータ) (2022-10-02T01:54:40Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - FLASH: Fast Neural Architecture Search with Hardware Optimization [7.263481020106725]
ニューラルアーキテクチャサーチ(NAS)は、効率的かつ高性能なディープニューラルネットワーク(DNN)を設計するための有望な手法である
本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を協調的に最適化する,非常に高速なNAS手法であるFLASHを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:46:48Z) - NASCaps: A Framework for Neural Architecture Search to Optimize the
Accuracy and Hardware Efficiency of Convolutional Capsule Networks [10.946374356026679]
我々は,異なるタイプのディープニューラルネットワーク(DNN)のハードウェア対応NASの自動フレームワークであるNASCapsを提案する。
多目的遺伝的アルゴリズム(NSGA-IIアルゴリズム)の展開の有効性について検討する。
我々のフレームワークは、NASフローの特別なカプセル層と動的ルーティングをモデル化し、サポートする最初のフレームワークです。
論文 参考訳(メタデータ) (2020-08-19T14:29:36Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。