論文の概要: SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2403.17004v1
- Date: Mon, 25 Mar 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:05:20.532326
- Title: SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer
- Title(参考訳): SD-DiT:拡散変圧器における自己教師付き判別のパワーを解放する
- Authors: Rui Zhu, Yingwei Pan, Yehao Li, Ting Yao, Zhenglong Sun, Tao Mei, Chang Wen Chen,
- Abstract要約: 拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
- 参考スコア(独自算出の注目度): 102.39050180060913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) has emerged as the new trend of generative diffusion models on image generation. In view of extremely slow convergence in typical DiT, recent breakthroughs have been driven by mask strategy that significantly improves the training efficiency of DiT with additional intra-image contextual learning. Despite this progress, mask strategy still suffers from two inherent limitations: (a) training-inference discrepancy and (b) fuzzy relations between mask reconstruction & generative diffusion process, resulting in sub-optimal training of DiT. In this work, we address these limitations by novelly unleashing the self-supervised discrimination knowledge to boost DiT training. Technically, we frame our DiT in a teacher-student manner. The teacher-student discriminative pairs are built on the diffusion noises along the same Probability Flow Ordinary Differential Equation (PF-ODE). Instead of applying mask reconstruction loss over both DiT encoder and decoder, we decouple DiT encoder and decoder to separately tackle discriminative and generative objectives. In particular, by encoding discriminative pairs with student and teacher DiT encoders, a new discriminative loss is designed to encourage the inter-image alignment in the self-supervised embedding space. After that, student samples are fed into student DiT decoder to perform the typical generative diffusion task. Extensive experiments are conducted on ImageNet dataset, and our method achieves a competitive balance between training cost and generative capacity.
- Abstract(参考訳): 拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
典型的なDiTの収束が極めて遅いことを考えると、最近のブレークスルーは、追加のイメージ内文脈学習によるDiTのトレーニング効率を大幅に向上させるマスク戦略によって推進されている。
この進歩にもかかわらず、マスク戦略は依然として2つの固有の制限に悩まされている。
(a)トレーニング・推論の相違
b) マスク再構成と生成拡散過程のファジィ関係はDiTの準最適トレーニングをもたらす。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
技術的には、DiTを教師が教える方法でフレーム化します。
教師と教師の区別ペアは、同じ確率フロー正規微分方程式(PF-ODE)に沿った拡散雑音上に構築される。
DiTエンコーダとデコーダの両方にマスク再構成損失を施す代わりに、DiTエンコーダとデコーダを分離し、識別目的と生成目的を分離する。
特に、学生と教師のDiTエンコーダと差別的ペアを符号化することにより、自己監督型埋め込み空間における画像間のアライメントを促進するために、新たな差別的損失を設計する。
その後、学生サンプルを学生DiTデコーダに入力し、典型的な生成拡散タスクを実行する。
ImageNetデータセット上で大規模な実験を行い、本手法はトレーニングコストと生成能力の競合バランスを達成する。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Adversarial Masking Contrastive Learning for vein recognition [10.886119051977785]
ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。
静脈認識のために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーのようなディープニューラルネットワークが導入されている。
近年の進歩にもかかわらず、画像サンプルの不足のため、指先の特徴抽出のための既存のソリューションはまだ最適ではない。
論文 参考訳(メタデータ) (2024-01-16T03:09:45Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。