論文の概要: TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
- arxiv url: http://arxiv.org/abs/2503.07050v1
- Date: Mon, 10 Mar 2025 08:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:43.556941
- Title: TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation
- Title(参考訳): TIDE : 画像生成における解釈可能な拡散変換器のための時間認識スパースオートエンコーダ
- Authors: Victor Shea-Jay Huang, Le Zhuo, Yi Xin, Zhaokai Wang, Peng Gao, Hongsheng Li,
- Abstract要約: TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。
TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。
提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
- 参考スコア(独自算出の注目度): 34.73820805875123
- License:
- Abstract: Diffusion Transformers (DiTs) are a powerful yet underexplored class of generative models compared to U-Net-based diffusion models. To bridge this gap, we introduce TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs), a novel framework that enhances temporal reconstruction within DiT activation layers across denoising steps. TIDE employs Sparse Autoencoders (SAEs) with a sparse bottleneck layer to extract interpretable and hierarchical features, revealing that diffusion models inherently learn hierarchical features at multiple levels (e.g., 3D, semantic, class) during generative pre-training. Our approach achieves state-of-the-art reconstruction performance, with a mean squared error (MSE) of 1e-3 and a cosine similarity of 0.97, demonstrating superior accuracy in capturing activation dynamics along the denoising trajectory. Beyond interpretability, we showcase TIDE's potential in downstream applications such as sparse activation-guided image editing and style transfer, enabling improved controllability for generative systems. By providing a comprehensive training and evaluation protocol tailored for DiTs, TIDE contributes to developing more interpretable, transparent, and trustworthy generative models.
- Abstract(参考訳): 拡散トランスフォーマー(Diffusion Transformers, DiTs)は、U-Netベースの拡散モデルと比較して、強力なが未探索な生成モデルのクラスである。
このギャップを埋めるために,我々は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークであるTIDE(Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs)を導入する。
TIDEはスパース・オートエンコーダ(SAE)とスパース・ボトルネック・レイヤを用いて解釈可能な階層的特徴と階層的特徴を抽出し、拡散モデルが生成前訓練中に複数の階層的特徴(例えば、3D、セマンティック、クラス)を本質的に学習していることを明らかにする。
提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97)の2乗誤差(MSE)を伴って,現状の再建性能を実現する。
解釈可能性以外にも、スパースアクティベーション誘導画像編集やスタイル転送といった下流アプリケーションにおけるTIDEの可能性を示し、生成システムにおける制御性の向上を実現している。
DiT用に調整された総合的なトレーニングおよび評価プロトコルを提供することで、TIDEはより解釈可能で透明で信頼性の高い生成モデルの開発に貢献している。
関連論文リスト
- ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。