論文の概要: DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.04239v1
- Date: Wed, 04 Mar 2026 16:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.396755
- Title: DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers
- Title(参考訳): DiverseDiT:拡散変換器における拡散表現学習に向けて
- Authors: Mengping Yang, Zhiyu Tan, Binglei Li, Xiaomeng Yang, Hesen Chen, Hao Li,
- Abstract要約: 拡散変換器(DiT)の効果的な学習には,ブロック間の表現の多様性が不可欠であることを示す。
表現の多様性を明確に促進する新しいフレームワークであるDiverseDiTを提案する。
我々の研究は、DiTの表現学習ダイナミクスに関する貴重な洞察を提供し、その性能を高めるための実践的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 18.873998808314067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent breakthroughs in Diffusion Transformers (DiTs) have revolutionized the field of visual synthesis due to their superior scalability. To facilitate DiTs' capability of capturing meaningful internal representations, recent works such as REPA incorporate external pretrained encoders for representation alignment. However, the underlying mechanisms governing representation learning within DiTs are not well understood. To this end, we first systematically investigate the representation dynamics of DiTs. Through analyzing the evolution and influence of internal representations under various settings, we reveal that representation diversity across blocks is a crucial factor for effective learning. Based on this key insight, we propose DiverseDiT, a novel framework that explicitly promotes representation diversity. DiverseDiT incorporates long residual connections to diversify input representations across blocks and a representation diversity loss to encourage blocks to learn distinct features. Extensive experiments on ImageNet 256x256 and 512x512 demonstrate that our DiverseDiT yields consistent performance gains and convergence acceleration when applied to different backbones with various sizes, even when tested on the challenging one-step generation setting. Furthermore, we show that DiverseDiT is complementary to existing representation learning techniques, leading to further performance gains. Our work provides valuable insights into the representation learning dynamics of DiTs and offers a practical approach for enhancing their performance.
- Abstract(参考訳): 拡散変換器(DiT)の最近の進歩は、その優れたスケーラビリティのために視覚合成の分野に革命をもたらした。
意味のある内部表現をキャプチャするDiTsの能力を促進するために、REPAのような最近の研究は、表現アライメントのための外部トレーニング済みエンコーダを組み込んでいる。
しかし、DiT内の表現学習を規定するメカニズムはよく理解されていない。
そこで我々はまず,DiTの表現力学を系統的に研究する。
様々な環境下での内部表現の進化と影響を分析することで、ブロック間の表現の多様性が効果的な学習にとって重要な要素であることを明らかにする。
この重要な知見に基づいて,表現の多様性を明確に促進する新しいフレームワークであるDiverseDiTを提案する。
DiverseDiTは、ブロック間で入力表現を多様化するための長い残差接続と、異なる特徴を学ぶためにブロックを奨励する表現の多様性損失を組み込んでいる。
ImageNet 256x256 と 512x512 の大規模な実験により、我々のDiverseDiT は、挑戦的なワンステップ生成設定でテストしても、様々なサイズで異なるバックボーンに適用した場合、一貫したパフォーマンスゲインと収束加速度が得られることを示した。
さらに,DiverseDiTは既存の表現学習技術と相補的であり,さらなる性能向上につながることを示す。
我々の研究は、DiTの表現学習ダイナミクスに関する貴重な洞察を提供し、その性能を高めるための実践的なアプローチを提供する。
関連論文リスト
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Learning Task-Agnostic Representations through Multi-Teacher Distillation [59.488314181423284]
本稿では,「多数決」目的関数に基づくタスク非依存フレームワークを提案する。
この機能は,学生と教師の埋め込みの相互情報に縛られていることを実証する。
提案手法は,教師の多様性を効果的に活用し,多様な下流タスクのパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2025-10-21T14:36:33Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - Semantics-Consistent Feature Search for Self-Supervised Visual
Representation Learning [15.242064747740116]
拡張手順中に異なる意味概念を含む望ましくないビューを構築するのは避けられない。
これにより表現の意味的一貫性が損なわれ、これらの拡張を特徴空間に無差別に近づけることになる。
本研究では,特徴量の増大と,この負の効果を緩和する新しい意味論的特徴探索(SCFS)手法を提案する。
論文 参考訳(メタデータ) (2022-12-13T11:13:59Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Improving the Modality Representation with Multi-View Contrastive
Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。
我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。
3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文 参考訳(メタデータ) (2022-10-28T01:25:16Z) - Investigating the Properties of Neural Network Representations in
Reinforcement Learning [35.02223992335008]
本稿では,強化学習における伝達を支援する表現の特性を実証的に検討する。
我々は、画素ベースのナビゲーション環境において、補助的損失が異なる深層Q学習エージェントについて検討する。
そこで我々は,ある表現が転送に適する理由を,体系的なアプローチでよりよく理解する手法を開発した。
論文 参考訳(メタデータ) (2022-03-30T00:14:26Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。