論文の概要: A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic
- arxiv url: http://arxiv.org/abs/2205.01571v1
- Date: Mon, 2 May 2022 09:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:35:54.963468
- Title: A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic
- Title(参考訳): 585MB/sリアルタイム1280x720物体検出チップ
- Authors: Kuo-Wei Chang, Hsu-Tung Shih, Tian-Sheuan Chang, Shang-Hong Tsai,
Chih-Chyau Yang, Chien-Ming Wu, Chun-Ming Huang
- Abstract要約: 本稿では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
- 参考スコア(独自算出の注目度): 1.553339756999288
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memory bandwidth has become the real-time bottleneck of current deep learning
accelerators (DLA), particularly for high definition (HD) object detection.
Under resource constraints, this paper proposes a low memory traffic DLA chip
with joint hardware and software optimization. To maximize hardware utilization
under memory bandwidth, we morph and fuse the object detection model into a
group fusion-ready model to reduce intermediate data access. This reduces the
YOLOv2's feature memory traffic from 2.9 GB/s to 0.15 GB/s. To support group
fusion, our previous DLA based hardware employes a unified buffer with
write-masking for simple layer-by-layer processing in a fusion group. When
compared to our previous DLA with the same PE numbers, the chip implemented in
a TSMC 40nm process supports 1280x720@30FPS object detection and consumes 7.9X
less external DRAM access energy, from 2607 mJ to 327.6 mJ.
- Abstract(参考訳): メモリ帯域幅は、特にHDオブジェクト検出において、現在のディープラーニングアクセラレータ(DLA)のリアルタイムボトルネックとなっている。
資源制約下では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合し,中間データアクセスを低減する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
グループ融合をサポートするため、従来のDLAベースのハードウェアでは、単純な層間処理に書き込み・マスキングを併用した統一バッファをフュージョン・グループに導入した。
TSMC 40nmプロセスで実装されたチップは1280x720@30FPSオブジェクト検出をサポートし、2607mJから327.6mJまでの7.9倍少ない外部DRAMアクセスエネルギーを消費する。
関連論文リスト
- Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - A Real Time Super Resolution Accelerator with Tilted Layer Fusion [0.10547353841674209]
本稿では,外部DRAM帯域幅を92%削減し,102KBのオンチップメモリを必要とする,傾斜層融合方式のリアルタイムハードウェアアクセラレータを提案する。
40nmのCMOSプロセスで実装された設計は、600MHzで動作する場合、1920x1080@60fpsのスループットと544.3Kゲート数を実現している。
論文 参考訳(メタデータ) (2022-05-09T01:47:02Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。