論文の概要: Guiding a Diffusion Transformer with the Internal Dynamics of Itself
- arxiv url: http://arxiv.org/abs/2512.24176v1
- Date: Tue, 30 Dec 2025 12:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.377096
- Title: Guiding a Diffusion Transformer with the Internal Dynamics of Itself
- Title(参考訳): 内部ダイナミクスを用いた拡散変圧器の誘導
- Authors: Xingyu Zhou, Qifan Li, Xiaobin Hu, Hai Chen, Shuhang Gu,
- Abstract要約: 内部ガイダンス(IG)は、各種ベースラインにおけるトレーニング効率と生成品質の両方に大きな改善をもたらす。
ImageNet 256x256では、SiT-XL/2+IGはFID=5.31とFID=1.75を80と800のエポックで達成している。
LightningDiT-XL/1+IGでは、LightningDiT-XL/1+IGはFID=1.34を達成する。
- 参考スコア(独自算出の注目度): 29.825583753955485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diffusion model presents a powerful ability to capture the entire (conditional) data distribution. However, due to the lack of sufficient training and data to learn to cover low-probability areas, the model will be penalized for failing to generate high-quality images corresponding to these areas. To achieve better generation quality, guidance strategies such as classifier free guidance (CFG) can guide the samples to the high-probability areas during the sampling stage. However, the standard CFG often leads to over-simplified or distorted samples. On the other hand, the alternative line of guiding diffusion model with its bad version is limited by carefully designed degradation strategies, extra training and additional sampling steps. In this paper, we proposed a simple yet effective strategy Internal Guidance (IG), which introduces an auxiliary supervision on the intermediate layer during training process and extrapolates the intermediate and deep layer's outputs to obtain generative results during sampling process. This simple strategy yields significant improvements in both training efficiency and generation quality on various baselines. On ImageNet 256x256, SiT-XL/2+IG achieves FID=5.31 and FID=1.75 at 80 and 800 epochs. More impressively, LightningDiT-XL/1+IG achieves FID=1.34 which achieves a large margin between all of these methods. Combined with CFG, LightningDiT-XL/1+IG achieves the current state-of-the-art FID of 1.19.
- Abstract(参考訳): 拡散モデルは、(条件付き)データ分布全体をキャプチャする強力な能力を示す。
しかし、低確率領域をカバーするための十分なトレーニングとデータが不足しているため、これらの領域に対応する高品質な画像の生成に失敗するため、モデルがペナルティ化される。
より優れた生成品質を達成するために、分類器フリーガイダンス(CFG)のようなガイダンス戦略は、サンプリング段階の高確率領域にサンプルを誘導することができる。
しかし、標準のCFGはしばしば過剰に単純化されたり歪んだりする。
一方, 導出拡散モデル(拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル, 導出拡散モデル)の
本稿では,トレーニングプロセス中に中間層を補助的に監視し,中間層および深層出力を外挿してサンプリングプロセス中に生成結果を得る,シンプルで効果的な内部ガイダンス(IG)を提案する。
この単純な戦略は、様々なベースラインでのトレーニング効率と生成品質の両方に大きな改善をもたらす。
ImageNet 256x256では、SiT-XL/2+IGはFID=5.31とFID=1.75を80と800のエポックで達成している。
さらに印象的なことに、LightningDiT-XL/1+IGはFID=1.34を達成した。
CFGと組み合わせて、LightningDiT-XL/1+IGは1.19の最先端FIDを実現する。
関連論文リスト
- Momentum Guidance: Plug-and-Play Guidance for Flow Models [11.47531308210865]
本稿では, ODE 軌道自体を利用した新たなガイダンスである Momentum Guidance (MG) を紹介する。
MGは過去の速度の指数移動平均を用いて電流速度を外挿し、標準の1段階評価コストを保存する。
MGは、CFGを使わずに36.68%、CFGを使わず25.52%の平均的なFID改善を実現し、64回のサンプリングステップで1.597のFIDを達成する。
論文 参考訳(メタデータ) (2026-02-23T21:06:35Z) - RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。
本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-12-29T06:44:06Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [35.56845917727121]
自己誘導(SG)は、低品質サンプルの生成を抑えることにより、生成画像の品質を著しく向上させることができる。
SGは、異なる雑音レベルにおける元の拡散または流れモデルのサンプリングスコア関数に依存する。
我々は、異なるアーキテクチャでテキスト・ツー・イメージとテキスト・ツー・ビデオ生成に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-12-08T06:32:27Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。