Fugu-MT 論文翻訳(概要): Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think

論文の概要: Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think

arxiv url: http://arxiv.org/abs/2507.01467v1
Date: Wed, 02 Jul 2025 08:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.100572
Title: Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think
Title（参考訳）: 生成のための表現の絡み合い:拡散変換器の訓練は想像よりずっと簡単
Authors: Ge Wu, Shen Zhang, Ruijing Shi, Shanghua Gao, Zhenyuan Chen, Lei Wang, Zhaowei Chen, Hongcheng Gao, Yao Tang, Jian Yang, Ming-Ming Cheng, Xiang Li,
Abstract要約: REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
参考スコア（独自算出の注目度）: 56.539823627694304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: REPA and its variants effectively mitigate training challenges in diffusion models by incorporating external visual representations from pretrained models, through alignment between the noisy hidden projections of denoising networks and foundational clean image representations. We argue that the external alignment, which is absent during the entire denoising inference process, falls short of fully harnessing the potential of discriminative representations. In this work, we propose a straightforward method called Representation Entanglement for Generation (REG), which entangles low-level image latents with a single high-level class token from pretrained foundation models for denoising. REG acquires the capability to produce coherent image-class pairs directly from pure noise, substantially improving both generation quality and training efficiency. This is accomplished with negligible additional inference overhead, requiring only one single additional token for denoising (<0.5\% increase in FLOPs and latency). The inference process concurrently reconstructs both image latents and their corresponding global semantics, where the acquired semantic knowledge actively guides and enhances the image generation process. On ImageNet 256$\times$256, SiT-XL/2 + REG demonstrates remarkable convergence acceleration, achieving $\textbf{63}\times$ and $\textbf{23}\times$ faster training than SiT-XL/2 and SiT-XL/2 + REPA, respectively. More impressively, SiT-L/2 + REG trained for merely 400K iterations outperforms SiT-XL/2 + REPA trained for 4M iterations ($\textbf{10}\times$ longer). Code is available at: https://github.com/Martinser/REG.
Abstract（参考訳）: REPAとその変種は、ノイズの多い隠蔽プロジェクションと基礎的なクリーンな画像表現とのアライメントを通じて、事前訓練されたモデルからの外部視覚表現を組み込むことで、拡散モデルのトレーニング課題を効果的に軽減する。偏見推論プロセス全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。本研究では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG) という簡単な手法を提案する。 REGは、純雑音から直接コヒーレントなイメージクラスペアを生成する能力を取得し、生成品質とトレーニング効率の両方を大幅に改善する。これは無視可能な追加の推論オーバーヘッドで実現され、denoisingには1つの追加トークン(FLOPとレイテンシの (<0.5\%)が必要になります。推論プロセスは、取得したセマンティック知識が画像生成プロセスを積極的にガイドし、強化する、画像潜在者とその対応するグローバルセマンティクスの両方を同時に再構築する。 ImageNet 256$\times$256では、SiT-XL/2 + REGが顕著な収束加速を示し、SiT-XL/2とSiT-XL/2 + REPAよりも高速なトレーニングで$\textbf{63}\times$と$\textbf{23}\times$を達成する。より印象的なことに、SiT-L/2 + REGは400Kイテレーションでトレーニングされ、SiT-XL/2 + REPAは4Mイテレーションでトレーニングされた(\textbf{10}\times$long)。コードは、https://github.com/Martinser/REG.comで入手できる。

関連論文リスト

REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。 HASTEを紹介する
論文参考訳（メタデータ） (2025-05-22T15:34:33Z)
Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis [3.5900418884504095]
Unified Self-Supervised Learning (SSL)メソッドは、表現学習と生成モデリングのギャップを埋める。最近のUnified SSLメソッドは、トレーニング中に外部トークン化器を必要とするセマンティックトークン再構成のみに依存している。本稿では,新しい統合SSLフレームワークであるSorcenについて紹介する。
論文参考訳（メタデータ） (2025-03-19T09:53:11Z)
Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。 CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文参考訳（メタデータ） (2024-12-20T20:32:02Z)
E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling [17.62612090885471]
マルチステージモデリングによる効率的な連続自己回帰画像生成(ECAR)について述べる。解像度が上がるとトークンを生成し、同時に各ステージで画像をデノナイズする。 ECARはDiT Peebles & Xie [2023]に匹敵する画質を実現し、10$times$ FLOPsと5$times$のスピードアップを必要とし、256$times $256イメージを生成する。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文参考訳（メタデータ） (2024-03-19T17:34:27Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。