Fugu-MT 論文翻訳(概要): No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

論文の概要: No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

arxiv url: http://arxiv.org/abs/2505.02831v3
Date: Tue, 13 May 2025 16:45:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 12:30:10.402723
Title: No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves
Title（参考訳）: その他の表現要素は不要:拡散変換器はテーマによる表現誘導を提供することができる
Authors: Dengyang Jiang, Mengmeng Wang, Liuzhuozheng Li, Lei Zhang, Haoyu Wang, Wei Wei, Guang Dai, Yanning Zhang, Jingdong Wang,
Abstract要約: 自己表現アライメント(Self-Representation Alignment, SRA)は, 自己蒸留法により表現指導を得る単純な方法である。実験結果から,SRAをDiTsおよびSiTsに適用すると一貫した性能向上が得られた。
参考スコア（独自算出の注目度）: 59.79343544931784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have demonstrated that learning a meaningful internal representation can both accelerate generative training and enhance the generation quality of diffusion transformers. However, existing approaches necessitate to either introduce an external and complex representation training framework or rely on a large-scale, pre-trained representation foundation model to provide representation guidance during the original generative training process. In this study, we posit that the unique discriminative process inherent to diffusion transformers enables them to offer such guidance without requiring external representation components. We therefore propose Self-Representation Alignment (SRA), a simple yet straightforward method that obtains representation guidance through a self-distillation manner. Specifically, SRA aligns the output latent representation of the diffusion transformer in the earlier layer with higher noise to that in the later layer with lower noise to progressively enhance the overall representation learning during only the generative training process. Experimental results indicate that applying SRA to DiTs and SiTs yields consistent performance improvements. Moreover, SRA not only significantly outperforms approaches relying on auxiliary, complex representation training frameworks but also achieves performance comparable to methods that are heavily dependent on powerful external representation priors.
Abstract（参考訳）: 近年の研究では、意味のある内部表現の学習が、生成的訓練を加速し、拡散トランスフォーマーの生成品質を向上させることが示されている。しかし、既存のアプローチでは、外部および複雑な表現トレーニングフレームワークを導入するか、あるいは、大規模で事前訓練された表現基盤モデルに依存して、オリジナルの生成トレーニングプロセス中に表現ガイダンスを提供する必要がある。本研究では,拡散変圧器固有の独自の識別プロセスにより,外部表現成分を必要とせず,そのようなガイダンスを提供できることを示唆する。そこで本研究では,自己蒸留方式を用いて表現指導を行う簡易かつ簡単な方法である自己表現アライメント(SRA)を提案する。具体的には、SRAは、前層における拡散変圧器の出力潜時表現を、後層における出力潜時表現と後層における出力潜時表現を低雑音で整列させ、生成訓練過程のみにおける全体的な表現学習を段階的に向上させる。実験結果から,SRAをDiTsおよびSiTsに適用すると一貫した性能向上が得られた。さらに、SRAは補助的な複雑な表現訓練フレームワークに依存するアプローチよりも、強力な外部表現に大きく依存するメソッドに匹敵するパフォーマンスを達成する。

関連論文リスト

DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文参考訳（メタデータ） (2025-05-16T08:47:16Z)
GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution [15.563111624900865]
GuideSRは、画像の忠実度を高めるために特別に設計された、単一ステップ拡散に基づく画像超解像(SR)モデルである。提案手法は,PSNR, SSIM, LPIPS, DISTS, FIDなど,様々な基準ベースの指標において,既存の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-01T17:48:25Z)
Efficient Generative Model Training via Embedded Representation Warmup [6.783363935446626]
拡散モデルは高次元データを生成するのに優れるが、自己教師付き手法に比べて訓練効率と表現品質に劣る。トレーニング中に高品質で意味豊かな表現を不活用すること。本稿では,Embeded Representation Warmup (ERW)を提案する。
論文参考訳（メタデータ） (2025-04-14T12:43:17Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文参考訳（メタデータ） (2022-12-21T18:07:39Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文参考訳（メタデータ） (2020-01-13T14:39:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。