論文の概要: Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.16949v1
- Date: Sat, 16 May 2026 12:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.313068
- Title: Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers
- Title(参考訳): 点幅マッチングを超えて:拡散変換器の高速化のための構造表現アライメント
- Authors: Shaodong Xu, Zhendong Wang, Litong Gong, Zexian Li, Wengang Zhou, Tiezheng Ge, Houqiang Li,
- Abstract要約: 本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
- 参考スコア(独自算出の注目度): 93.3976834364707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Diffusion Transformers (DiTs) demonstrate that aligning noisy latent states with well-trained semantic features-as pioneered by Representation Alignment (REPA)-can substantially accelerate training and improve generation fidelity. Subsequent analysis(e.g., iREPA) suggests that these gains arise primarily from transferring spatial structure contained in pre-trained vision representations. However, mostly existing alignment methods employ point-wise matching objectives or rely on implicit architectural tweaks, which fail to explicitly model the spatial relational geometry inherent in vision foundation models. We argue that such element-wise supervision is insufficient to capture the rich spatial topology of visual representations, and that effective alignment for generation should instead be formulated as an explicit structural constraint. To this end, we propose sREPA, a structural REPresentation Alignment framework to enforce consistency in the relational geometry of feature maps, rather than merely matching individual feature points. By encouraging the model to internalize holistic spatial layouts and structural correlations from pre-trained features, sREPA achieves faster and more stable convergence, along with improved sample quality, compared to state-of-the-art alignment strategies. Our code and models will be released.
- Abstract(参考訳): 拡散変換器(DiTs)の最近の進歩は、Representation Alignment(REPA)によって先駆された、ノイズの多い潜在状態とよく訓練された意味的特徴の整合が、トレーニングを著しく加速し、生成忠実性を向上させることを実証している。
その後の分析(e , iREPA)は、これらの利得は、主に事前訓練された視覚表現に含まれる空間構造を伝達することに由来することを示唆している。
しかし、既存のアライメント手法のほとんどは、ポイントワイドな目的や暗黙的なアーキテクチャの微調整に依存しており、視覚基盤モデルに固有の空間的関係幾何学を明示的にモデル化することができない。
このような要素的監督は、視覚表現の豊かな空間的トポロジーを捉えるには不十分であり、生成のための効果的なアライメントは、明示的な構造的制約として定式化されるべきである、と我々は主張する。
そこで本稿では,特徴写像のリレーショナル幾何の整合性を実現するための構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から包括的空間配置と構造的相関を内包するように促すことにより、sREPAは、最先端のアライメント戦略と比較して、より高速でより安定した収束を達成する。
コードとモデルはリリースされます。
関連論文リスト
- AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers [24.937985157569823]
我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
論文 参考訳(メタデータ) (2026-05-05T03:07:29Z) - Curvature-Aware PCA with Geodesic Tangent Space Aggregation for Semi-Supervised Learning [52.452902154360565]
GTSA-PCAは主成分分析の幾何学的拡張である。
曲率認識と測地的整合性を統合されたスペクトルフレームワークに統合する。
以上の結果から,GTSA-PCAは次元減少に対する統計的および幾何学的アプローチの原則的ブリッジとして位置づけられた。
論文 参考訳(メタデータ) (2026-04-20T20:36:36Z) - Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective [55.919842734983156]
CoSAは、共有された低次元セマンティック空間内で機能する転送可能なアタックフレームワークである。
CoSAは、最先端のトランスファー可能な攻撃を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T15:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。