Fugu-MT 論文翻訳(概要): Dedicated Inference Engine and Binary-Weight Neural Networks for Lightweight Instance Segmentation

論文の概要: Dedicated Inference Engine and Binary-Weight Neural Networks for Lightweight Instance Segmentation

arxiv url: http://arxiv.org/abs/2501.01841v1
Date: Fri, 03 Jan 2025 14:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.620738
Title: Dedicated Inference Engine and Binary-Weight Neural Networks for Lightweight Instance Segmentation
Title（参考訳）: 軽量インスタンスセグメンテーションのための述語推論エンジンとバイナリウェイトニューラルネットワーク
Authors: Tse-Wei Chen, Wei Tao, Dongyue Zhao, Kazuhiro Mima, Tadayuki Ito, Kinya Osa, Masami Kato,
Abstract要約: 2つの動作モードを持つ最新のBNNを扱うために,推論エンジンの設計手法を提案する。 MAC操作のアーキテクチャは、ハードウェアコストのわずか52%でBNNの推論結果を効率的に計算することができる。 SegNeXtのバックボーンとインスタンスセグメンテーションのためのSparseInstのデコーダを組み合わせた2つの軽量ネットワークも提案されている。
参考スコア（独自算出の注目度）: 9.448218182077595
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reducing computational costs is an important issue for development of embedded systems. Binary-weight Neural Networks (BNNs), in which weights are binarized and activations are quantized, are employed to reduce computational costs of various kinds of applications. In this paper, a design methodology of hardware architecture for inference engines is proposed to handle modern BNNs with two operation modes. Multiply-Accumulate (MAC) operations can be simplified by replacing multiply operations with bitwise operations. The proposed method can effectively reduce the gate count of inference engines by removing a part of computational costs from the hardware system. The architecture of MAC operations can calculate the inference results of BNNs efficiently with only 52% of hardware costs compared with the related works. To show that the inference engine can handle practical applications, two lightweight networks which combine the backbones of SegNeXt and the decoder of SparseInst for instance segmentation are also proposed. The output results of the lightweight networks are computed using only bitwise operations and add operations. The proposed inference engine has lower hardware costs than related works. The experimental results show that the proposed inference engine can handle the proposed instance-segmentation networks and achieves higher accuracy than YOLACT on the "Person" category although the model size is 77.7$\times$ smaller compared with YOLACT.
Abstract（参考訳）: 組込みシステムを開発する上では計算コストの削減が重要な問題である。重みをバイナライズし、アクティベーションを定量化する二元重ニューラルネットワーク(BNN)は、様々な種類のアプリケーションの計算コストを削減するために使用される。本稿では,2つの動作モードを持つ最新のBNNを扱うために,推論エンジンのためのハードウェアアーキテクチャの設計手法を提案する。乗算演算をビットワイズ演算に置き換えることで、MAC演算を単純化することができる。提案手法は,ハードウェアシステムから計算コストの一部を除去することにより,推論エンジンのゲート数を効果的に削減することができる。 MAC操作のアーキテクチャは、関連する作業と比較してハードウェアコストのわずか52%でBNNの推論結果を効率的に計算することができる。また,SegNeXtのバックボーンとSparseInstのインスタンスセグメンテーションのデコーダを組み合わせた2つの軽量ネットワークを提案する。軽量ネットワークの出力結果をビットワイズ演算のみで計算し、演算を追加する。提案した推論エンジンは、関連する作業よりもハードウェアコストが低い。実験の結果,提案した推論エンジンは,YOLACTに比べて77.7$\times$小さいが,提案したインスタンス分割ネットワークを処理でき,モデルサイズが77.7$\times$であるにもかかわらず,"Person"カテゴリのYOLACTよりも高い精度が得られることがわかった。

関連論文リスト

Stochastic Configuration Machines: FPGA Implementation [4.57421617811378]
コンフィグレーションネットワーク(SCN)は、データモデリングのメリットと実現可能性から、産業アプリケーションにおいて主要な選択肢である。本稿では、フィールドプログラマブルゲートアレイ(FPGA)にSCMモデルを実装し、学習性能を向上させるためにバイナリコード入力を導入することを目的とする。
論文参考訳（メタデータ） (2023-10-30T02:04:20Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Basic Binary Convolution Unit for Binarized Image Restoration Network [146.0988597062618]
本研究では,画像復元作業における残差接続,BatchNorm,アクティベーション機能,構造などのバイナリ畳み込みのコンポーネントを再検討する。本研究の成果と分析に基づいて, 単純で効率的な基本二元畳み込みユニット (BBCU) を設計した。我々のBBCUは、他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示しています。
論文参考訳（メタデータ） (2022-10-02T01:54:40Z)
Energy Efficient Hardware Acceleration of Neural Networks with Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文参考訳（メタデータ） (2022-09-30T06:33:40Z)
Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文参考訳（メタデータ） (2022-07-15T14:34:22Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。 MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文参考訳（メタデータ） (2021-09-22T15:33:49Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文参考訳（メタデータ） (2021-02-22T19:00:05Z)
A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文参考訳（メタデータ） (2020-10-09T21:02:47Z)
Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文参考訳（メタデータ） (2020-01-02T17:15:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。