論文の概要: SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08253v1
- Date: Tue, 11 Mar 2025 10:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:23.227868
- Title: SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models
- Title(参考訳): SARA: 学習効率のよい拡散モデルのための構造的・対角的表現アライメント
- Authors: Hesen Chen, Junyan Wang, Zhiyu Tan, Hao Li,
- Abstract要約: マルチレベル表現制約を強制する階層的アライメントフレームワークであるSARAを紹介する。
ImageNet-256の実験では、SARAはREPAの2倍の速さで1.36のFIDを達成した。
- 参考スコア(独自算出の注目度): 12.26595705520937
- License:
- Abstract: Modern diffusion models encounter a fundamental trade-off between training efficiency and generation quality. While existing representation alignment methods, such as REPA, accelerate convergence through patch-wise alignment, they often fail to capture structural relationships within visual representations and ensure global distribution consistency between pretrained encoders and denoising networks. To address these limitations, we introduce SARA, a hierarchical alignment framework that enforces multi-level representation constraints: (1) patch-wise alignment to preserve local semantic details, (2) autocorrelation matrix alignment to maintain structural consistency within representations, and (3) adversarial distribution alignment to mitigate global representation discrepancies. Unlike previous approaches, SARA explicitly models both intra-representation correlations via self-similarity matrices and inter-distribution coherence via adversarial alignment, enabling comprehensive alignment across local and global scales. Experiments on ImageNet-256 show that SARA achieves an FID of 1.36 while converging twice as fast as REPA, surpassing recent state-of-the-art image generation methods. This work establishes a systematic paradigm for optimizing diffusion training through hierarchical representation alignment.
- Abstract(参考訳): 現代の拡散モデルは、訓練効率と生成品質の基本的なトレードオフに直面している。
REPAのような既存の表現アライメント手法はパッチワイドアライメントによって収束を加速するが、視覚的表現における構造的関係を捉えることができず、事前訓練されたエンコーダとデノナイジングネットワーク間のグローバルな分布の整合性を保証する。
これらの制約に対処するため,(1)局所的な意味的詳細を維持するためのパッチワイドアライメント,(2)表現内の構造的一貫性を維持するための自己相関行列アライメント,(3)グローバルな表現の不一致を軽減するための対向分布アライメントなど,多段階の表現制約を強制する階層的アライメントフレームワークであるSARAを導入する。
従来のアプローチとは異なり、SARAは自己相似行列による表現内相関と、対角アライメントによる分配間コヒーレンスの両方を明示的にモデル化し、局所的および大域的スケールにわたる包括的なアライメントを可能にした。
ImageNet-256の実験では、SARAはREPAの2倍の速さで1.36のFIDを達成した。
この研究は、階層的表現アライメントによる拡散訓練を最適化するための体系的パラダイムを確立する。
関連論文リスト
- DSDRNet: Disentangling Representation and Reconstruct Network for Domain Generalization [26.19333812906363]
本稿ではDSDRNetと呼ばれるデュアルストリーム分離再構成ネットワークを提案する。
これは、二重ストリーム融合を通じて、インスタンス間およびインスタンス内両方の特徴を統合する、アンタングルメント・リコンストラクションのアプローチである。
4つのベンチマークデータセットの実験により、DSDRNetはドメインの一般化能力において他の一般的なメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-22T03:15:42Z) - Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport [24.141959555741696]
教師なしクロスドメイン画像検索は、ラベル付きデータに頼ることなく、さまざまな領域で同じカテゴリを共有する画像を検索することを目的としている。
従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。
本稿では,UCIR に最適化された新規な Optimal Transport の定式化である ProtoOT を紹介する。
論文 参考訳(メタデータ) (2024-02-28T15:31:45Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。