論文の概要: Accelerating Transposed Convolutions on FPGA-based Edge Devices
- arxiv url: http://arxiv.org/abs/2507.07683v1
- Date: Thu, 10 Jul 2025 12:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.385967
- Title: Accelerating Transposed Convolutions on FPGA-based Edge Devices
- Title(参考訳): FPGAベースのエッジデバイス上でのトランスポーズ畳み込みの高速化
- Authors: Jude Haris, José Cano,
- Abstract要約: Transposed Convolutions (TCONV)は、生成人工知能(AI)モデル内のアップスケーリングメカニズムを可能にする。
TCONVを実装するための Input-Oriented Mapping (IOM) 法には複雑な出力マッピング、重複和、非効率計算がある。
本稿では,資源制約エッジデバイス上でTCONV層を効率的に処理するハードウェア・ソフトウェア共同設計アクセラレータMM2IMを提案する。
- 参考スコア(独自算出の注目度): 0.24554686192257422
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transposed Convolutions (TCONV) enable the up-scaling mechanism within generative Artificial Intelligence (AI) models. However, the predominant Input-Oriented Mapping (IOM) method for implementing TCONV has complex output mapping, overlapping sums, and ineffectual computations. These inefficiencies further exacerbate the performance bottleneck of TCONV and generative models on resource-constrained edge devices. To address this problem, in this paper we propose MM2IM, a hardware-software co-designed accelerator that combines Matrix Multiplication (MatMul) with col2IM to process TCONV layers on resource-constrained edge devices efficiently. Using the SECDA-TFLite design toolkit, we implement MM2IM and evaluate its performance across 261 TCONV problem configurations, achieving an average speedup of 1.9x against a dual-thread ARM Neon optimized CPU baseline. We then evaluate the performance of MM2IM on a range of TCONV layers from well-known generative models achieving up to 4.2x speedup, and compare it against similar resource-constrained TCONV accelerators, outperforming them by at least 2x GOPs/DSP. Finally, we evaluate MM2IM on the DCGAN and pix2pix GAN models, achieving up to 3x speedup and 2.4x energy reduction against the CPU baseline.
- Abstract(参考訳): Transposed Convolutions (TCONV)は、生成人工知能(AI)モデル内のアップスケーリングメカニズムを可能にする。
しかし、TCONVを実装するための主なIOM法には、複雑な出力マッピング、重なり合う和、非効率な計算がある。
これらの非効率さは、資源制約エッジデバイス上でのTCONVと生成モデルの性能ボトルネックをさらに悪化させる。
本稿では,資源制約エッジデバイス上でTCONV層を効率的に処理するために,行列乗算(MatMul)とcol2IMを組み合わせたハードウェア・ソフトウェア共同設計アクセラレータMM2IMを提案する。
SECDA-TFLite設計ツールキットを用いて、MM2IMを実装し、261のTCONV問題構成で性能を評価し、デュアルスレッドARM Neon最適化CPUベースラインに対して平均1.9倍の高速化を実現する。
次に,TCONV層におけるMM2IMの性能評価を行い,最大4.2倍の高速化を実現し,資源制約のTCONVアクセラレータと比較し,少なくとも2倍 GOP/DSPで性能を向上した。
最後に,DCGANおよびPix2pix GANモデル上でMM2IMを評価し,CPUベースラインに対して最大3倍の高速化と2.4倍のエネルギー削減を実現した。
関連論文リスト
- Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - LPViT: Low-Power Semi-structured Pruning for Vision Transformers [43.126752035656196]
画像解析タスクのための畳み込みニューラルネットワークに代わる有望な代替手段として、ビジョントランスフォーマーが登場した。
ViTの重大な欠点の1つは、リソース集約性であり、メモリフットプリント、複雑性、消費電力が増加することである。
我々は,ViTの資源集約的な問題に対処するため,新しいブロック構造プルーニングを導入し,精度とハードウェアアクセラレーションのバランスのとれたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-07-02T08:58:19Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit
Sparsity of Neural Network [18.79036546647254]
我々はSparse-Multiplication-Engine(SME)という新しいReRAMベースのディープニューラルネットワーク(DNN)アクセラレータを開発した。
まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。
第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。
第三に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
論文 参考訳(メタデータ) (2021-03-02T13:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。