論文の概要: A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic
- arxiv url: http://arxiv.org/abs/2205.01571v1
- Date: Mon, 2 May 2022 09:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:35:54.963468
- Title: A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic
- Title(参考訳): 585MB/sリアルタイム1280x720物体検出チップ
- Authors: Kuo-Wei Chang, Hsu-Tung Shih, Tian-Sheuan Chang, Shang-Hong Tsai,
Chih-Chyau Yang, Chien-Ming Wu, Chun-Ming Huang
- Abstract要約: 本稿では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
- 参考スコア(独自算出の注目度): 1.553339756999288
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memory bandwidth has become the real-time bottleneck of current deep learning
accelerators (DLA), particularly for high definition (HD) object detection.
Under resource constraints, this paper proposes a low memory traffic DLA chip
with joint hardware and software optimization. To maximize hardware utilization
under memory bandwidth, we morph and fuse the object detection model into a
group fusion-ready model to reduce intermediate data access. This reduces the
YOLOv2's feature memory traffic from 2.9 GB/s to 0.15 GB/s. To support group
fusion, our previous DLA based hardware employes a unified buffer with
write-masking for simple layer-by-layer processing in a fusion group. When
compared to our previous DLA with the same PE numbers, the chip implemented in
a TSMC 40nm process supports 1280x720@30FPS object detection and consumes 7.9X
less external DRAM access energy, from 2607 mJ to 327.6 mJ.
- Abstract(参考訳): メモリ帯域幅は、特にHDオブジェクト検出において、現在のディープラーニングアクセラレータ(DLA)のリアルタイムボトルネックとなっている。
資源制約下では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合し,中間データアクセスを低減する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
グループ融合をサポートするため、従来のDLAベースのハードウェアでは、単純な層間処理に書き込み・マスキングを併用した統一バッファをフュージョン・グループに導入した。
TSMC 40nmプロセスで実装されたチップは1280x720@30FPSオブジェクト検出をサポートし、2607mJから327.6mJまでの7.9倍少ない外部DRAMアクセスエネルギーを消費する。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - A Real Time Super Resolution Accelerator with Tilted Layer Fusion [0.10547353841674209]
本稿では,外部DRAM帯域幅を92%削減し,102KBのオンチップメモリを必要とする,傾斜層融合方式のリアルタイムハードウェアアクセラレータを提案する。
40nmのCMOSプロセスで実装された設計は、600MHzで動作する場合、1920x1080@60fpsのスループットと544.3Kゲート数を実現している。
論文 参考訳(メタデータ) (2022-05-09T01:47:02Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。