論文の概要: Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations
- arxiv url: http://arxiv.org/abs/2505.18584v1
- Date: Sat, 24 May 2025 08:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.521084
- Title: Unleashing Diffusion Transformers for Visual Correspondence by Modulating Massive Activations
- Title(参考訳): 大量活性化の制御による視覚対応のための解凍拡散変換器
- Authors: Chaofan Gan, Yuanpeng Tu, Xi Chen, Tieyuan Chen, Yuxi Li, Mehrtash Harandi, Weiyao Lin,
- Abstract要約: 拡散変換器(DiTs)は、非常に少数の特徴活性化が他のものよりもはるかに大きな値を示す重要な現象を示す。
本研究では,Diffusion Transformer Feature (DiTF)を提案する。
- 参考スコア(独自算出の注目度): 39.83216506924748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained stable diffusion models (SD) have shown great advances in visual correspondence. In this paper, we investigate the capabilities of Diffusion Transformers (DiTs) for accurate dense correspondence. Distinct from SD, DiTs exhibit a critical phenomenon in which very few feature activations exhibit significantly larger values than others, known as \textit{massive activations}, leading to uninformative representations and significant performance degradation for DiTs. The massive activations consistently concentrate at very few fixed dimensions across all image patch tokens, holding little local information. We trace these dimension-concentrated massive activations and find that such concentration can be effectively localized by the zero-initialized Adaptive Layer Norm (AdaLN-zero). Building on these findings, we propose Diffusion Transformer Feature (DiTF), a training-free framework designed to extract semantic-discriminative features from DiTs. Specifically, DiTF employs AdaLN to adaptively localize and normalize massive activations with channel-wise modulation. In addition, we develop a channel discard strategy to further eliminate the negative impacts from massive activations. Experimental results demonstrate that our DiTF outperforms both DINO and SD-based models and establishes a new state-of-the-art performance for DiTs in different visual correspondence tasks (\eg, with +9.4\% on Spair-71k and +4.4\% on AP-10K-C.S.).
- Abstract(参考訳): 事前訓練された安定拡散モデル(SD)は、視覚的対応において大きな進歩を見せている。
本稿では,ディフュージョン変換器(DiT)の高精度対応性について検討する。
SDとは別として、DiTsは、非常に少数の特徴活性化が他のものよりもはるかに大きな値を示す重要な現象を示し、不定形表現とDiTsの性能劣化をもたらす。
大規模なアクティベーションは、すべてのイメージパッチトークンに対して非常に少数の固定次元に集中し、ローカル情報をほとんど保持しない。
我々はこれらの次元集中型大規模活性化を辿り、そのような濃度はゼロ初期化適応層ノルム(AdaLN-zero)によって効果的に局在化できることを示した。
これらの知見に基づいて,Diffusion Transformer Feature (DiTF) を提案する。
具体的には、DiTFはAdaLNを使用して、チャネルワイド変調による大規模な活性化を適応的に局所化し、正常化する。
さらに,大規模なアクティベーションによる負の影響をさらに排除するために,チャネルの破棄戦略を開発する。
実験の結果,DINOモデルとSDモデルの両方より優れた性能を示し,異なる視覚対応タスクにおけるDiTの最先端性能を確立した(AP-10K-C.S.では+9.4\%,Spair-71kでは+4.4\%,+4.4\%)。
関連論文リスト
- TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。
TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。
提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [5.174900115018253]
効率的な拡散変換器(DiT)のためのデータフリー後トレーニング量子化(PTQ)法を提案する。
DiTASは、入力アクティベーションにおけるチャネルワイド・アウトレイアの影響を軽減するために、時間的凝集平滑化手法が提案されている。
提案手法により,DiTの4ビット重み付き8ビットアクティベーション(W4A8)量子化が可能であり,全精度モデルとして同等の性能を維持した。
論文 参考訳(メタデータ) (2024-09-12T05:18:57Z) - Decomposing the Neurons: Activation Sparsity via Mixture of Experts for Continual Test Time Adaptation [37.79819260918366]
継続的なテスト時間適応(CTTA)は、トレーニング済みのモデルを進化し続けるターゲットドメインに適応させることを目的としている。
我々はCTTAタスクのアダプタとしてMixture-of-Activation-Sparsity-Experts (MoASE)の統合について検討する。
論文 参考訳(メタデータ) (2024-05-26T08:51:39Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。