論文の概要: Fast Training of Diffusion Models with Masked Transformers
- arxiv url: http://arxiv.org/abs/2306.09305v2
- Date: Tue, 5 Mar 2024 01:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:17:59.002537
- Title: Fast Training of Diffusion Models with Masked Transformers
- Title(参考訳): マスク変圧器を用いた拡散モデルの高速学習
- Authors: Hongkai Zheng, Weili Nie, Arash Vahdat, Anima Anandkumar
- Abstract要約: マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
- 参考スコア(独自算出の注目度): 107.77340216247516
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose an efficient approach to train large diffusion models with masked
transformers. While masked transformers have been extensively explored for
representation learning, their application to generative learning is less
explored in the vision domain. Our work is the first to exploit masked training
to reduce the training cost of diffusion models significantly. Specifically, we
randomly mask out a high proportion (e.g., 50%) of patches in diffused input
images during training. For masked training, we introduce an asymmetric
encoder-decoder architecture consisting of a transformer encoder that operates
only on unmasked patches and a lightweight transformer decoder on full patches.
To promote a long-range understanding of full patches, we add an auxiliary task
of reconstructing masked patches to the denoising score matching objective that
learns the score of unmasked patches. Experiments on ImageNet-256x256 and
ImageNet-512x512 show that our approach achieves competitive and even better
generative performance than the state-of-the-art Diffusion Transformer (DiT)
model, using only around 30% of its original training time. Thus, our method
shows a promising way of efficiently training large transformer-based diffusion
models without sacrificing the generative performance.
- Abstract(参考訳): マスク変換器を用いた大規模拡散モデルの学習手法を提案する。
マスクトランスフォーマーは表現学習のために広く研究されてきたが、その生成学習への応用は視覚領域ではあまり研究されていない。
我々の研究は、拡散モデルのトレーニングコストを大幅に削減するためにマスク付きトレーニングを利用する最初のものである。
具体的には、トレーニング中に拡散した入力画像のパッチの割合(50%など)をランダムにマスクする。
マスク付きトレーニングでは,非マスキングパッチのみで動作するトランスフォーマーエンコーダと,フルパッチ上の軽量トランスフォーマーデコーダからなる非対称エンコーダデコーダアーキテクチャを導入する。
フルパッチの長距離理解を促進するために,マスク付きパッチを再構成する補助タスクを,マスクなしパッチのスコアを学習する復調スコアマッチング目的に加える。
ImageNet-256x256 と ImageNet-512x512 の実験は、我々のアプローチが、現在の Diffusion Transformer (DiT) モデルよりも競争力があり、より優れた生成性能を実現していることを示している。
そこで本手法は, 生成性能を犠牲にすることなく, 大規模変圧器を用いた拡散モデルを効率的に訓練する方法を示す。
関連論文リスト
- Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文 参考訳(メタデータ) (2023-04-25T02:35:54Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers [35.26148770111607]
Mixed and Masked AutoEncoder (MixMAE) は、様々な階層型視覚変換器に適用可能な、シンプルだが効率的な事前学習手法である。
本稿では,Swin-B/W14を用いたMixMAEにおいて,600エポックの事前トレーニングにより,ImageNet-1K上で85.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-05-26T04:00:42Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。