論文の概要: EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation
- arxiv url: http://arxiv.org/abs/2603.28405v1
- Date: Mon, 30 Mar 2026 13:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.406039
- Title: EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation
- Title(参考訳): EdgeDiT: デバイス上での効率的な画像生成のためのハードウェア対応拡散変換器
- Authors: Sravanth Kodavanti, Manjunath Arveti, Sowmya Vajrala, Srinivas Miriyala, Vikram N R,
- Abstract要約: モバイルニューラルプロセッシングユニット(NPU)に特化して開発されたハードウェア効率の良い生成変換器であるEdgeDiTを紹介する。
ハードウェア対応の最適化フレームワークを利用することで、特にモバイルデータフローに対して課税されるDiTバックボーン内の構造的冗長性を識別し、具現化する。
提案手法では,パラメータの20~30%の削減,FLOPの36~46%の削減,デバイス上のレイテンシの1.65倍の削減を実現した。
- 参考スコア(独自算出の注目度): 1.0439136407307046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) have established a new state-of-the-art in high-fidelity image synthesis; however, their massive computational complexity and memory requirements hinder local deployment on resource-constrained edge devices. In this paper, we introduce EdgeDiT, a family of hardware-efficient generative transformers specifically engineered for mobile Neural Processing Units (NPUs), such as the Qualcomm Hexagon and Apple Neural Engine (ANE). By leveraging a hardware-aware optimization framework, we systematically identify and prune structural redundancies within the DiT backbone that are particularly taxing for mobile data-flows. Our approach yields a series of lightweight models that achieve a 20-30% reduction in parameters, a 36-46% decrease in FLOPs, and a 1.65-fold reduction in on-device latency without sacrificing the scaling advantages or the expressive capacity of the original transformer architecture. Extensive benchmarking demonstrates that EdgeDiT offers a superior Pareto-optimal trade-off between Frechet Inception Distance (FID) and inference latency compared to both optimized mobile U-Nets and vanilla DiT variants. By enabling responsive, private, and offline generative AI directly on-device, EdgeDiT provides a scalable blueprint for transitioning large-scale foundation models from high-end GPUs to the palm of the user.
- Abstract(参考訳): Diffusion Transformers (DiT) は、高忠実度画像合成における新しい最先端技術を確立したが、その膨大な計算複雑性とメモリ要件は、リソース制約されたエッジデバイスへのローカルデプロイメントを妨げている。
本稿では,クアルコム・ヘキサゴンやアップル・ニューラル・エンジン(ANE)など,モバイル・ニューラル・プロセッシング・ユニット(NPU)に特化して開発されたハードウェア効率の良い生成トランスフォーマーであるEdgeDiTを紹介する。
ハードウェアを意識した最適化フレームワークを利用することで、特にモバイルデータフローに対して課税されるDiTバックボーン内の構造的冗長性を体系的に識別し、創出する。
提案手法では,パラメータの20~30%の削減,FLOPの36~46%の削減,デバイス上でのレイテンシの1.65倍の削減を実現した。
大規模なベンチマークでは、EdgeDiTはFrechet Inception Distance(FID)と推論レイテンシの両面で、最適化されたモバイルU-NetとバニラDiTのいずれよりも優れたパレート最適トレードオフを提供していることが示されている。
EdgeDiTは、応答性、プライベート、オフライン生成AIを直接デバイス上で実現することにより、大規模ファンデーションモデルをハイエンドGPUからユーザの手のひらに移行するためのスケーラブルな青写真を提供する。
関連論文リスト
- TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge [16.466947690033127]
TrainDeeployは、異種超低消費電力システムオンチップ(SoC)上での効率的な推論とオンデバイストレーニングを統合するフレームワークである。
我々は、CCT(Compact Convolutional Transformer)の最初のエンドツーエンドの微調整を実演し、1秒間に最大11個のトレーニング済み画像を達成した。
LoRAは動的メモリ使用量を23%削減し、トレーニング可能なパラメータや勾配を15倍削減し、フルバックプロパゲーションと比較してメモリ転送量を1.6倍削減する。
論文 参考訳(メタデータ) (2026-03-10T11:10:50Z) - SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:46:46Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - CoFormer: Collaborating with Heterogeneous Edge Devices for Scalable Transformer Inference [34.693462786320545]
CoFormerは一般的なトランスモデルの協調推論システムである。
CoFormerはエッジデバイス上で16億のパラメータを持つGPT2-XLの効率的な推論を可能にし、メモリ要求を76.3%削減した。
論文 参考訳(メタデータ) (2025-08-28T02:50:12Z) - Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds [91.56929670753226]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の大幅な高速化と,モバイルプラットフォームへの実用的な展開を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。