論文の概要: AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.03317v1
- Date: Tue, 05 May 2026 03:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.744387
- Title: AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers
- Title(参考訳): AHPA:拡散変換器の適応的階層的事前アライメント
- Authors: Ruibin Min, Yexin Liu, Aimin Pan, Changsheng Lu, Jiafei Wu, Kelu Yao, Xiaogang Xu, Harry Yang,
- Abstract要約: 我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
- 参考スコア(独自算出の注目度): 24.937985157569823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation alignment has recently emerged as an effective paradigm for accelerating Diffusion Transformer training. Despite their success, existing alignment methods typically impose a fixed supervision target or a fixed alignment granularity throughout the entire denoising trajectory, whether the guidance is provided by external vision encoders, internal self-representations, or VAE-derived features. We argue that such timestep-agnostic alignment is suboptimal because the useful granularity of representation supervision changes systematically with the signal-to-noise ratio. In high-noise regimes, diffusion models benefit more from coarse semantic and layout-level anchoring, whereas in low-noise regimes, the training signal should emphasize spatially detailed and structurally faithful refinement. This non-stationary alignment behavior creates a representational mismatch for static single-level supervisors. To address this issue, we propose Adaptive Hierarchical Prior Alignment (AHPA), a lightweight alignment framework that exploits the hierarchical representations naturally embedded in the frozen VAE encoder. Instead of using only a single compressed latent as the alignment target, AHPA extracts multi-level VAE features that provide complementary priors ranging from local geometry and spatial topology to coarse semantic layout. A timestep-conditioned Dynamic Router adaptively selects and weights these hierarchical priors along the denoising trajectory, thereby synchronizing the alignment granularity with the model's evolving training needs. Extensive experiments show that AHPA improves convergence and generation quality over baselines and incurs no additional inference cost while avoiding external encoder supervision during training.
- Abstract(参考訳): 表現アライメントは近年,拡散トランスフォーマートレーニングの促進に有効なパラダイムとして浮上している。
彼らの成功にもかかわらず、既存のアライメント手法は一般的に、外部視覚エンコーダ、内部自己表現、またはVAEに由来する特徴によって提供されるかに関わらず、認知軌道全体を通して固定された監視対象または固定されたアライメントの粒度を課す。
我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
この問題に対処するために,凍結されたVAEエンコーダに自然に埋め込まれた階層表現を利用する軽量アライメントフレームワークであるAdaptive Hierarchical Prior Alignment (AHPA)を提案する。
AHPAは、アライメントターゲットとして1つの圧縮ラテントのみを使用する代わりに、局所幾何学や空間トポロジーから粗いセマンティックレイアウトまで、相補的な事前情報を提供するマルチレベルなVAE特徴を抽出する。
タイムステップ条件付き動的ルータは、これらの階層的先行をデノイング軌道に沿って適応的に選択し、重み付けすることにより、モデルの進化するトレーニングニーズとアライメントの粒度を同期させる。
大規模な実験により、AHPAはベースラインよりも収束と生成品質を改善し、トレーニング中に外部エンコーダの監督を避けながら追加の推論コストを発生させないことが示された。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文 参考訳(メタデータ) (2026-01-25T13:22:38Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。