論文の概要: Hardware-Robust In-RRAM-Computing for Object Detection
- arxiv url: http://arxiv.org/abs/2205.03996v1
- Date: Mon, 9 May 2022 01:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 01:14:12.473999
- Title: Hardware-Robust In-RRAM-Computing for Object Detection
- Title(参考訳): オブジェクト検出のためのハードウェアロバストIn-RRAM計算
- Authors: Yu-Hsiang Chiang, Cheng En Ni, Yun Sung, Tuo-Hung Hou, Tian-Sheuan
Chang, and Shyh Jye Jou
- Abstract要約: In-RRAMコンピューティングは、ハードウェアにおいて大きなデバイスバリエーションと多くの非理想的効果に悩まされた。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
提案手法は3.85%のmAP降下しか持たない複雑な物体検出タスクにうまく適用されている。
- 参考スコア(独自算出の注目度): 0.15113576014047125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-memory computing is becoming a popular architecture for deep-learning
hardware accelerators recently due to its highly parallel computing, low power,
and low area cost. However, in-RRAM computing (IRC) suffered from large device
variation and numerous nonideal effects in hardware. Although previous
approaches including these effects in model training successfully improved
variation tolerance, they only considered part of the nonideal effects and
relatively simple classification tasks. This paper proposes a joint hardware
and software optimization strategy to design a hardware-robust IRC macro for
object detection. We lower the cell current by using a low word-line voltage to
enable a complete convolution calculation in one operation that minimizes the
impact of nonlinear addition. We also implement ternary weight mapping and
remove batch normalization for better tolerance against device variation, sense
amplifier variation, and IR drop problem. An extra bias is included to overcome
the limitation of the current sensing range. The proposed approach has been
successfully applied to a complex object detection task with only 3.85\% mAP
drop, whereas a naive design suffers catastrophic failure under these nonideal
effects.
- Abstract(参考訳): 近年、インメモリコンピューティングは、高並列コンピューティング、低消費電力、低領域コストのため、ディープラーニングハードウェアアクセラレーターの一般的なアーキテクチャとなっている。
しかし、in-rramコンピューティング(irc)は大きなデバイス変動とハードウェアの非理想的影響に苦しんだ。
モデルトレーニングにおけるこれらの効果を含む以前のアプローチは、変動耐性を改善できたが、彼らは非理想的効果の一部と比較的単純な分類タスクしか考慮しなかった。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
非線形加算の影響を最小限に抑える1つの演算で完全な畳み込み計算を可能にするために、低ワード線電圧を用いてセル電流を下げる。
また,3次重みマッピングを実装し,デバイス変動に対する耐性向上,センスアンプ変動,irドロップ問題に対してバッチ正規化を除去した。
電流センシング範囲の制限を克服するために、余分なバイアスを含む。
提案手法は3.85\%のマップドロップしか持たない複雑な物体検出タスクにうまく適用できたが、単純な設計ではこれらの非理想的影響下で壊滅的な失敗に苦しめられている。
関連論文リスト
- Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Task-Oriented Over-the-Air Computation for Multi-Device Edge AI [57.50247872182593]
エッジAIをサポートするための6Gネットワークは、AIタスクの効率的かつ効率的な実行に焦点を当てたタスク指向のテクニックを備えている。
本稿では,マルチデバイススプリット推論システムにおけるタスク指向オーバー・ザ・エア計算(AirComp)方式を提案する。
論文 参考訳(メタデータ) (2022-11-02T16:35:14Z) - PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party
Computation Based Private Inference [23.795457990555878]
プライバシー保護型ディープラーニング(DL)計算を可能にするために,セキュアなマルチパーティ計算(MPC)が議論されている。
MPCは計算オーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。
本研究では,MPC比較プロトコルとハードウェアアクセラレーションの協調オーバーヘッド削減のための,PolyMPCNetという体系的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-09-20T02:47:37Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - From DNNs to GANs: Review of efficient hardware architectures for deep
learning [0.0]
ニューラルネットワークとディープラーニングが現在の研究パラダイムに影響を与え始めている。
DSPプロセッサは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワーク操作を実行することができない。
異なるアルゴリズムは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成対向ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサを設計するために適合している。
論文 参考訳(メタデータ) (2021-06-06T13:23:06Z) - Reservoir Based Edge Training on RF Data To Deliver Intelligent and
Efficient IoT Spectrum Sensors [0.6451914896767135]
本稿では,コンパクトなモバイルデバイス上での汎用機械学習アルゴリズムをサポートする処理アーキテクチャを提案する。
Deep Delay Loop Reservoir Computing (DLR)は、Stand-of-the-Art (SoA)と比較して、フォームファクタ、ハードウェアの複雑さ、レイテンシを低減します。
状態ベクトルを線形に結合した複数の小さなループからなるDLRアーキテクチャを、リッジ回帰に対する低次元入力を生成する。
論文 参考訳(メタデータ) (2021-04-01T20:08:01Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - AVAC: A Machine Learning based Adaptive RRAM Variability-Aware
Controller for Edge Devices [3.7346292069282643]
本稿ではAVAC(Adaptive RRAM Variability-Aware Controller)を提案する。
AVACにより、Edgeデバイスは異なるアプリケーションとそのステージに適応し、パフォーマンスを改善し、エネルギー消費を減らすことができる。
論文 参考訳(メタデータ) (2020-05-06T19:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。