論文の概要: Designing Parameter and Compute Efficient Diffusion Transformers using Distillation
- arxiv url: http://arxiv.org/abs/2502.14226v1
- Date: Thu, 20 Feb 2025 03:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:57.799602
- Title: Designing Parameter and Compute Efficient Diffusion Transformers using Distillation
- Title(参考訳): 蒸留を用いた効率的な拡散変換器の設計パラメータと計算効率
- Authors: Vignesh Sundaresha,
- Abstract要約: 数十億のモデルパラメータを持つ拡散変換器(DiT)は、DALL.E、Stable-Diffusion、SORAのような一般的な画像およびビデオ生成モデルのバックボーンを形成する。
DiTは、膨大な計算複雑性のため、リソース制約のあるエッジデバイスにデプロイすることはできない。
本研究では, 設計ノブ(深さ, 幅, 注意ヘッド, 蒸留設備など)をDiTで選択するための原則を提案する。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License:
- Abstract: Diffusion Transformers (DiTs) with billions of model parameters form the backbone of popular image and video generation models like DALL.E, Stable-Diffusion and SORA. Though these models are necessary in many low-latency applications like Augmented/Virtual Reality, they cannot be deployed on resource-constrained Edge devices (like Apple Vision Pro or Meta Ray-Ban glasses) due to their huge computational complexity. To overcome this, we turn to knowledge distillation and perform a thorough design-space exploration to achieve the best DiT for a given parameter size. In particular, we provide principles for how to choose design knobs such as depth, width, attention heads and distillation setup for a DiT. During the process, a three-way trade-off emerges between model performance, size and speed that is crucial for Edge implementation of diffusion. We also propose two distillation approaches - Teaching Assistant (TA) method and Multi-In-One (MI1) method - to perform feature distillation in the DiT context. Unlike existing solutions, we demonstrate and benchmark the efficacy of our approaches on practical Edge devices such as NVIDIA Jetson Orin Nano.
- Abstract(参考訳): 数十億のモデルパラメータを持つ拡散変換器(DiT)は、DALL.E、Stable-Diffusion、SORAのような一般的な画像およびビデオ生成モデルのバックボーンを形成する。
これらのモデルは、Augmented/Virtual Realityのような低レイテンシアプリケーションで必要とされるが、膨大な複雑性のためにリソース制約のあるエッジデバイス(Apple Vision ProやMeta Ray-Ban Glassなど)にデプロイすることはできない。
これを克服するために、我々は、知識蒸留に目を向け、与えられたパラメータサイズに対して最高のDiTを達成するために、徹底した設計空間探索を行う。
特に, 設計ノブ(深さ, 幅, 注意ヘッド, 蒸留設備など)をDiTで選択する方法の原理について述べる。
プロセス中、モデルのパフォーマンス、サイズ、速度の3方向のトレードオフが発生し、Edgeの拡散の実装に不可欠である。
また,2つの蒸留手法 (TA法) とマルチインワン法 (MI1) を提案する。
既存のソリューションとは異なり、NVIDIA Jetson Orin Nanoのような実用的なEdgeデバイスに対して、我々のアプローチの有効性を実証し、ベンチマークします。
関連論文リスト
- Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - ED-ViT: Splitting Vision Transformer for Distributed Inference on Edge Devices [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑なモデルを効率的に実行するための新しいビジョントランスフォーマー分割フレームワークED-ViTを提案する。
具体的には、Vision Transformerモデルをいくつかのサブモデルに分割し、各サブモデルはデータクラスの特定のサブセットを処理するように調整します。
3つのモデル構造を持つ5つのデータセットに対して広範な実験を行い、エッジデバイスにおける推論遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-10-15T14:38:14Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。
MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文 参考訳(メタデータ) (2022-10-27T15:53:38Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。