論文の概要: Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.13974v1
- Date: Wed, 13 May 2026 18:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.439103
- Title: Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers
- Title(参考訳): 拡散変圧器の大量活性化が露呈する、全体像を描くチャンネルはほとんどない
- Authors: Evelyn Turri, Davide Bucciarelli, Sara Sarto, Lorenzo Baraldi, Marcella Cornia,
- Abstract要約: Diffusion Transformer (DiT) と関連するフローベースのアーキテクチャは、現在最も強力なテキスト・イメージ・ジェネレータの1つである。
隠れ状態のチャネルの小さなサブセットで、応答は残りのチャネルよりもずっと大きい。
疎外性にもかかわらず、これらのチャンネルは3つの相補的な感覚で、効果的に全体像を描き出す。
- 参考スコア(独自算出の注目度): 25.952527417251556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) and related flow-based architectures are now among the strongest text-to-image generators, yet the internal mechanisms through which prompts shape image semantics remain poorly understood. In this work, we study massive activations: a small subset of hidden-state channels whose responses are consistently much larger than the rest. We show that, despite their sparsity, these few channels effectively draw the whole picture, in three complementary senses. First, they are functionally critical: a controlled disruption probe that zeroes the massive channels causes a sharp collapse in generation quality, while disrupting an equally-sized set of low-statistic channels has marginal effect. Second, they are spatially organized: restricting image-stream tokens to massive channels and clustering them yields coherent partitions that closely align with the main subject and salient regions, exposing a structured spatial code hidden inside an apparently outlier-like subspace. Third, they are transferable: transporting massive activations from one prompt-conditioned trajectory into another, shifts the final image toward the source prompt while preserving substantial content from the target, producing localized semantic interpolation rather than unstructured pixel blending. We exploit this property in two use cases: text-conditioned and image-conditioned semantic transport, where massive activations transport enables prompt interpolation and subject-driven generation without any additional training. Together, these results recast massive activations not as activation anomalies, but as a sparse prompt-conditioned carrier subspace that organizes and controls semantic information in modern DiT models.
- Abstract(参考訳): 拡散変換器(DiT)およびそれに関連するフローベースアーキテクチャは、現在では最も強力なテキスト・画像生成装置の1つとなっているが、形状画像の意味論を促進する内部メカニズムはいまだ理解されていない。
本研究は,反応が他のものよりもはるかに大きい隠れ状態チャネルの小さなサブセットである,大規模な活性化の研究である。
疎外性にもかかわらず、これらのチャンネルは3つの相補的な感覚で、効果的に全体像を描き出す。
まず、それらは機能的に重要であり、巨大なチャネルをゼロにする制御された破壊プローブは、生成品質の急激な崩壊を引き起こし、一方、同じ大きさの低統計チャネルをディスラプトすることは、限界効果を持つ。
2つ目は、画像ストリームトークンを巨大なチャネルに制限し、クラスタ化することで、メインの被写体やサリアント領域と密に整合したコヒーレントなパーティションを生成し、明らかにアウトリアのようなサブスペース内に隠された構造化された空間コードを公開する。
第3に、それらは転送可能であり、あるプロンプト条件の軌跡から別のプロンプトへの大量のアクティベーションを輸送し、最終的なイメージをソースプロンプトへシフトし、ターゲットからかなりの内容を保持しながら、非構造的なピクセルブレンディングではなく、局所的なセマンティック補間を生成する。
テキスト条件付きと画像条件付きセマンティックトランスポートの2つのユースケースでこの特性を利用する。
これらの結果は、アクティベーション異常ではなく、現代のDiTモデルのセマンティック情報を整理し制御するスパースプロンプト条件のキャリアサブスペースとして、大規模なアクティベーションをリキャストする。
関連論文リスト
- Edge-Cloud Collaborative Reconstruction via Structure-Aware Latent Diffusion for Downstream Remote Sensing Perception [6.402472465609055]
高解像度リモートセンシングデータは、衛星間通信において深刻なボトルネックに直面している。
本研究では,非対称なエッジクラウド協調SRシステムであるStructure-Aware Latent Diffusion (SALD) フレームワークを提案する。
極端帯域制限下では、SALDは知覚品質(LPIPS)が優れ、シーン分類と小ターゲット検出の両方において、下流性能を大幅に向上する。
論文 参考訳(メタデータ) (2026-04-28T07:28:39Z) - On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers [45.58775624703937]
文脈空間における反発は、視覚的忠実さや意味的忠実さを犠牲にすることなく、より豊かな多様性をもたらす。
以上の結果から,視覚的忠実さやセマンティック・アテンデンスを犠牲にすることなく,文脈空間の反発により多様性が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-30T17:59:13Z) - A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers [39.88221350788385]
クラス条件の埋め込みは、ImageNet-1Kで99%を超える極めて角度の類似性を示す。
ポーズ誘導画像生成やビデオ音声生成といった連続条件タスクは99.9%以上に達する。
その結果、Transformerベースの拡散モデルにおいて意味的ボトルネックが明らかとなった。
論文 参考訳(メタデータ) (2026-02-25T05:46:40Z) - RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文 参考訳(メタデータ) (2025-12-15T15:14:20Z) - RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。
解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - SOWing Information: Cultivating Contextual Coherence with MLLMs in Image Generation [29.49217721233131]
拡散生成モデルは、デノイング軌道に沿ったデータ空間におけるランダムウォークをシミュレートする。
これにより、情報は地域間で拡散し、結果をもたらす。
しかし、拡散モデルにおける情報拡散のカオス的・乱れた性質は、しばしば画像領域間の望ましくない干渉を引き起こし、劣化した詳細保存と文脈的矛盾を引き起こす。
画像全体を通して視覚的・意味的コヒーレンスを維持しつつ、画素レベルの条件忠実性を達成するために、乱れた拡散をテキストビジョン・画像生成(TV2I)タスクの強力なツールとして再定義する。
論文 参考訳(メタデータ) (2024-11-28T14:35:25Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。