論文の概要: Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2510.11538v1
- Date: Mon, 13 Oct 2025 15:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.43613
- Title: Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers
- Title(参考訳): 拡散変圧器における局所的詳細合成の鍵となる大量活性化
- Authors: Chaofan Gan, Zicheng Zhao, Yuanpeng Tu, Xi Chen, Ziran Qin, Tieyuan Chen, Mehrtash Harandi, Weiyao Lin,
- Abstract要約: Diffusion Transformers (DiT) は視覚生成の強力なバックボーンとして登場した。
近年の観察では, 内部特徴マップにemphMassive Activations (MA) が出現している。
ローカルなディテール忠実度を高めるためにtextbfDetail textbfGuidance (textbfDG) を提案する。
- 参考スコア(独自算出の注目度): 33.765941209545986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have recently emerged as a powerful backbone for visual generation. Recent observations reveal \emph{Massive Activations} (MAs) in their internal feature maps, yet their function remains poorly understood. In this work, we systematically investigate these activations to elucidate their role in visual generation. We found that these massive activations occur across all spatial tokens, and their distribution is modulated by the input timestep embeddings. Importantly, our investigations further demonstrate that these massive activations play a key role in local detail synthesis, while having minimal impact on the overall semantic content of output. Building on these insights, we propose \textbf{D}etail \textbf{G}uidance (\textbf{DG}), a MAs-driven, training-free self-guidance strategy to explicitly enhance local detail fidelity for DiTs. Specifically, DG constructs a degraded ``detail-deficient'' model by disrupting MAs and leverages it to guide the original network toward higher-quality detail synthesis. Our DG can seamlessly integrate with Classifier-Free Guidance (CFG), enabling further refinements of fine-grained details. Extensive experiments demonstrate that our DG consistently improves fine-grained detail quality across various pre-trained DiTs (\eg, SD3, SD3.5, and Flux).
- Abstract(参考訳): Diffusion Transformers (DiT) は視覚生成の強力なバックボーンとして最近登場した。
最近の観測では、内部特徴写像に 'emph{Massive Activations} (MAs) が示されているが、その機能はよく分かっていない。
本研究では,視覚生成におけるそれらの役割を明らかにするために,これらの活性化を体系的に検討する。
これらの大きな活性化はすべての空間トークンで起こり、それらの分布は入力時間ステップの埋め込みによって変調される。
重要なことは、これらの大規模な活性化が局所的な詳細合成において重要な役割を担いながら、アウトプット全体の意味的内容に最小限の影響を及ぼすことである。
これらの知見に基づいて、DETの局所的詳細忠実度を明確に向上するMAs駆動の訓練自由自己指導戦略である \textbf{D}etail \textbf{G}uidance (\textbf{DG}uidance (\textbf{DG})を提案する。
具体的には、DG は MA を乱すことによって劣化した `detail-deficient'' モデルを構築し、それを利用して元のネットワークを高品質な詳細合成へ導く。
我々の DG は Classifier-Free Guidance (CFG) とシームレスに統合することができ、細かな詳細のさらなる改善を可能にします。
我々のDGは、トレーニング済みのDiT(\eg, SD3, SD3.5, Flux)の細かなディテール品質を一貫して改善することを示した。
関連論文リスト
- RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - Automated Learning of Semantic Embedding Representations for Diffusion Models [1.688134675717698]
拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。
我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
論文 参考訳(メタデータ) (2025-05-09T02:10:46Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - Distilling Representations from GAN Generator via Squeeze and Span [55.76208869775715]
本稿では,GANジェネレータから知識を抽出し,その表現を抽出する手法を提案する。
我々は,合成ドメインの蒸留された表現を実領域に分散し,実際のトレーニングデータを用いてGANのモード崩壊を緩和する。
論文 参考訳(メタデータ) (2022-11-06T01:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。