論文の概要: TinyFusion: Diffusion Transformers Learned Shallow
- arxiv url: http://arxiv.org/abs/2412.01199v1
- Date: Mon, 02 Dec 2024 07:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:14.347395
- Title: TinyFusion: Diffusion Transformers Learned Shallow
- Title(参考訳): TinyFusion:拡散変換器の浅部学習
- Authors: Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang,
- Abstract要約: 拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 52.96232442322824
- License:
- Abstract: Diffusion Transformers have demonstrated remarkable capabilities in image generation but often come with excessive parameterization, resulting in considerable inference overhead in real-world applications. In this work, we present TinyFusion, a depth pruning method designed to remove redundant layers from diffusion transformers via end-to-end learning. The core principle of our approach is to create a pruned model with high recoverability, allowing it to regain strong performance after fine-tuning. To accomplish this, we introduce a differentiable sampling technique to make pruning learnable, paired with a co-optimized parameter to simulate future fine-tuning. While prior works focus on minimizing loss or error after pruning, our method explicitly models and optimizes the post-fine-tuning performance of pruned models. Experimental results indicate that this learnable paradigm offers substantial benefits for layer pruning of diffusion transformers, surpassing existing importance-based and error-based methods. Additionally, TinyFusion exhibits strong generalization across diverse architectures, such as DiTs, MARs, and SiTs. Experiments with DiT-XL show that TinyFusion can craft a shallow diffusion transformer at less than 7% of the pre-training cost, achieving a 2$\times$ speedup with an FID score of 2.86, outperforming competitors with comparable efficiency. Code is available at https://github.com/VainF/TinyFusion.
- Abstract(参考訳): 拡散変換器は画像生成において顕著な能力を示してきたが、しばしば過度なパラメータ化が伴い、現実のアプリケーションではかなりの推論オーバーヘッドが発生する。
本研究では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法であるTinyFusionを提案する。
提案手法の中核となる原理は、高い回復性を持つプルーンドモデルを作ることで、微調整後の強い性能を回復させることである。
そこで本研究では,異なるサンプリング手法を導入して,プルーニングを学習可能とし,パラメータと組み合わせて将来の微調整をシミュレートする手法を提案する。
従来の作業では,プルーニング後の損失やエラーの最小化に重点を置いていたが,本手法はプルーニング後のモデルの性能を明示的にモデル化し,最適化する。
実験結果から,この学習可能なパラダイムは,既存の重要度に基づく手法やエラーベースの手法を超越して,拡散トランスフォーマーの層切断に多大なメリットをもたらすことが示唆された。
さらに、TinyFusionは、DiTs、MARs、SiTsといった様々なアーキテクチャにまたがる強力な一般化を示している。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散トランスフォーマーを製作でき、FIDスコアが2.86で2$\times$のスピードアップを実現し、同等の効率で競合より優れていた。
コードはhttps://github.com/VainF/TinyFusion.comで入手できる。
関連論文リスト
- FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック間の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは, モデル性能を向上するために, 刈り込み変圧器ブロックをリサイクルする新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Towards Meta-Pruning via Optimal Transport [64.6060250923073]
本稿では, フラニングパラダイムに挑戦する「イントラフュージョン」という新しいアプローチを提案する。
モデル融合と最適輸送の概念を利用して、より効果的なスパースモデル表現に到達する。
CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-12T17:50:56Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。