Fugu-MT 論文翻訳(概要): Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

論文の概要: Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

arxiv url: http://arxiv.org/abs/2410.06940v2
Date: Thu, 05 Dec 2024 07:39:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.677058
Title: Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
Title（参考訳）: 進化のための表現アライメント:教育用拡散トランスフォーマーは想像より簡単
Authors: Sihyun Yu, Sangkyung Kwak, Huiwon Jang, Jongheon Jeong, Jonathan Huang, Jinwoo Shin, Saining Xie,
Abstract要約: 生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
参考スコア（独自算出の注目度）: 72.48325960659822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have shown that the denoising process in (generative) diffusion models can induce meaningful (discriminative) representations inside the model, though the quality of these representations still lags behind those learned through recent self-supervised learning methods. We argue that one main bottleneck in training large-scale diffusion models for generation lies in effectively learning these representations. Moreover, training can be made easier by incorporating high-quality external visual representations, rather than relying solely on the diffusion models to learn them independently. We study this by introducing a straightforward regularization called REPresentation Alignment (REPA), which aligns the projections of noisy input hidden states in denoising networks with clean image representations obtained from external, pretrained visual encoders. The results are striking: our simple strategy yields significant improvements in both training efficiency and generation quality when applied to popular diffusion and flow-based transformers, such as DiTs and SiTs. For instance, our method can speed up SiT training by over 17.5$\times$, matching the performance (without classifier-free guidance) of a SiT-XL model trained for 7M steps in less than 400K steps. In terms of final generation quality, our approach achieves state-of-the-art results of FID=1.42 using classifier-free guidance with the guidance interval.
Abstract（参考訳）: 近年の研究では、(生成的な)拡散モデルにおける認知過程がモデル内で意味のある(差別的な)表現を誘導できることが示されている。生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある、と我々は主張する。さらに、拡散モデルのみに頼らずに、高品質な外部視覚表現を組み込むことで、学習をより容易にすることができる。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。例えば、本手法は、400K未満のステップで7MステップでトレーニングされたSiT-XLモデルの性能(分類子なしガイダンスなしで)をマッチングすることにより、SiTトレーニングを17.5$\times$で高速化することができる。最終生成品質の面では,FID=1.42の指導間隔を付与した分類器フリーガイダンスを用いて,最先端のFID=1.42を実現する。

関連論文リスト

Beyond External Guidance: Unleashing the Semantic Richness Inside Diffusion Transformers for Improved Training [22.94826927321741]
最近の研究は、外部意味を持つ拡散モデルが拡散変圧器(DiT)の訓練を著しく加速することを示した。本稿では,内部特徴監督のみを用いて高速収束を実現する手法であるbfSelf-Transcendenceを提案する。
論文参考訳（メタデータ） (2026-01-12T17:52:11Z)
No Alignment Needed for Generation: Learning Linearly Separable Representations in Diffusion Models [4.511561231517167]
本稿では,中間層表現の線形SEP (Linear SEParability) の促進に基づく,学習のための代替正規化を提案する。本結果は,フローベーストランスアーキテクチャにおけるトレーニング効率と生成品質の両面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-09-25T20:46:48Z)
Learning Diffusion Models with Flexible Representation Guidance [37.301580601018365]
本稿では,表現指導を拡散モデルに組み込むための体系的枠組みを提案する。拡散モデルにおける表現アライメントを強化するための2つの新しい戦略を導入する。画像、タンパク質配列、分子生成タスクにわたる実験は、優れた性能を示し、訓練を加速する。
論文参考訳（メタデータ） (2025-07-11T19:29:02Z)
DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文参考訳（メタデータ） (2025-05-16T08:47:16Z)
No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves [59.79343544931784]
自己表現アライメント(Self-Representation Alignment, SRA)は, 自己蒸留法により表現指導を得る単純な方法である。実験結果から,SRAをDiTsおよびSiTsに適用すると一貫した性能向上が得られた。
論文参考訳（メタデータ） (2025-05-05T17:58:05Z)
Efficient Generative Model Training via Embedded Representation Warmup [6.783363935446626]
拡散モデルは高次元データを生成するのに優れるが、自己教師付き手法に比べて訓練効率と表現品質に劣る。トレーニング中に高品質で意味豊かな表現を不活用すること。本稿では,Embeded Representation Warmup (ERW)を提案する。
論文参考訳（メタデータ） (2025-04-14T12:43:17Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文参考訳（メタデータ） (2024-06-04T04:22:47Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文参考訳（メタデータ） (2024-03-08T10:19:00Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。 DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。 CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文参考訳（メタデータ） (2023-03-17T04:20:47Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。