論文の概要: Hardware-Robust In-RRAM-Computing for Object Detection
- arxiv url: http://arxiv.org/abs/2205.03996v1
- Date: Mon, 9 May 2022 01:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 01:14:12.473999
- Title: Hardware-Robust In-RRAM-Computing for Object Detection
- Title(参考訳): オブジェクト検出のためのハードウェアロバストIn-RRAM計算
- Authors: Yu-Hsiang Chiang, Cheng En Ni, Yun Sung, Tuo-Hung Hou, Tian-Sheuan
Chang, and Shyh Jye Jou
- Abstract要約: In-RRAMコンピューティングは、ハードウェアにおいて大きなデバイスバリエーションと多くの非理想的効果に悩まされた。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
提案手法は3.85%のmAP降下しか持たない複雑な物体検出タスクにうまく適用されている。
- 参考スコア(独自算出の注目度): 0.15113576014047125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-memory computing is becoming a popular architecture for deep-learning
hardware accelerators recently due to its highly parallel computing, low power,
and low area cost. However, in-RRAM computing (IRC) suffered from large device
variation and numerous nonideal effects in hardware. Although previous
approaches including these effects in model training successfully improved
variation tolerance, they only considered part of the nonideal effects and
relatively simple classification tasks. This paper proposes a joint hardware
and software optimization strategy to design a hardware-robust IRC macro for
object detection. We lower the cell current by using a low word-line voltage to
enable a complete convolution calculation in one operation that minimizes the
impact of nonlinear addition. We also implement ternary weight mapping and
remove batch normalization for better tolerance against device variation, sense
amplifier variation, and IR drop problem. An extra bias is included to overcome
the limitation of the current sensing range. The proposed approach has been
successfully applied to a complex object detection task with only 3.85\% mAP
drop, whereas a naive design suffers catastrophic failure under these nonideal
effects.
- Abstract(参考訳): 近年、インメモリコンピューティングは、高並列コンピューティング、低消費電力、低領域コストのため、ディープラーニングハードウェアアクセラレーターの一般的なアーキテクチャとなっている。
しかし、in-rramコンピューティング(irc)は大きなデバイス変動とハードウェアの非理想的影響に苦しんだ。
モデルトレーニングにおけるこれらの効果を含む以前のアプローチは、変動耐性を改善できたが、彼らは非理想的効果の一部と比較的単純な分類タスクしか考慮しなかった。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
非線形加算の影響を最小限に抑える1つの演算で完全な畳み込み計算を可能にするために、低ワード線電圧を用いてセル電流を下げる。
また,3次重みマッピングを実装し,デバイス変動に対する耐性向上,センスアンプ変動,irドロップ問題に対してバッチ正規化を除去した。
電流センシング範囲の制限を克服するために、余分なバイアスを含む。
提案手法は3.85\%のマップドロップしか持たない複雑な物体検出タスクにうまく適用できたが、単純な設計ではこれらの非理想的影響下で壊滅的な失敗に苦しめられている。
関連論文リスト
- SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。
本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。
提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文 参考訳(メタデータ) (2024-10-14T14:32:55Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - Accelerating ViT Inference on FPGA through Static and Dynamic Pruning [2.8595179027282907]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。
重みとトークンプルーニングは複雑さを減らすためのよく知られた方法である。
FPGA上でのViTの高速化を同時に行うためのアルゴリズムハードウェア符号を提案する。
論文 参考訳(メタデータ) (2024-03-21T00:09:04Z) - Task-Oriented Over-the-Air Computation for Multi-Device Edge AI [57.50247872182593]
エッジAIをサポートするための6Gネットワークは、AIタスクの効率的かつ効率的な実行に焦点を当てたタスク指向のテクニックを備えている。
本稿では,マルチデバイススプリット推論システムにおけるタスク指向オーバー・ザ・エア計算(AirComp)方式を提案する。
論文 参考訳(メタデータ) (2022-11-02T16:35:14Z) - PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party
Computation Based Private Inference [23.795457990555878]
プライバシー保護型ディープラーニング(DL)計算を可能にするために,セキュアなマルチパーティ計算(MPC)が議論されている。
MPCは計算オーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
本研究では,MPC比較プロトコルとハードウェアアクセラレーションの協調オーバーヘッド削減のための,PolyMPCNetという体系的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-09-20T02:47:37Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - AVAC: A Machine Learning based Adaptive RRAM Variability-Aware
Controller for Edge Devices [3.7346292069282643]
本稿ではAVAC(Adaptive RRAM Variability-Aware Controller)を提案する。
AVACにより、Edgeデバイスは異なるアプリケーションとそのステージに適応し、パフォーマンスを改善し、エネルギー消費を減らすことができる。
論文 参考訳(メタデータ) (2020-05-06T19:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。