論文の概要: Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector
- arxiv url: http://arxiv.org/abs/2601.22468v1
- Date: Fri, 30 Jan 2026 02:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.166163
- Title: Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector
- Title(参考訳): 表現アライメントプロジェクタを用いた拡散モデルの学習自由表現指導
- Authors: Wenqiang Zu, Shenghao Xie, Bo Lei, Lei Ma,
- Abstract要約: 本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
- 参考スコア(独自算出の注目度): 14.027059904924135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in generative modeling has enabled high-quality visual synthesis with diffusion-based frameworks, supporting controllable sampling and large-scale training. Inference-time guidance methods such as classifier-free and representative guidance enhance semantic alignment by modifying sampling dynamics; however, they do not fully exploit unsupervised feature representations. Although such visual representations contain rich semantic structure, their integration during generation is constrained by the absence of ground-truth reference images at inference. This work reveals semantic drift in the early denoising stages of diffusion transformers, where stochasticity results in inconsistent alignment even under identical conditioning. To mitigate this issue, we introduce a guidance scheme using a representation alignment projector that injects representations predicted by a projector into intermediate sampling steps, providing an effective semantic anchor without modifying the model architecture. Experiments on SiTs and REPAs show notable improvements in class-conditional ImageNet synthesis, achieving substantially lower FID scores; for example, REPA-XL/2 improves from 5.9 to 3.3, and the proposed method outperforms representative guidance when applied to SiT models. The approach further yields complementary gains when combined with classifier-free guidance, demonstrating enhanced semantic coherence and visual fidelity. These results establish representation-informed diffusion sampling as a practical strategy for reinforcing semantic preservation and image consistency.
- Abstract(参考訳): 生成モデリングの最近の進歩により、拡散型フレームワークによる高品質な視覚合成が可能となり、制御可能なサンプリングと大規模トレーニングがサポートされた。
分類器フリーや代表指導のような推論時間誘導手法はサンプリングダイナミクスを改良することで意味的アライメントを高めるが、教師なしの特徴表現を完全に活用するわけではない。
このような視覚表現は、豊富な意味構造を含むが、生成時の統合は、推論時に接地真実参照画像が存在しないことによって制約される。
この研究は拡散変圧器の初期段階における意味的ドリフトを明らかにし、そこでは確率性は同一条件下でも一貫性のないアライメントをもたらす。
この問題を緩和するために,プロジェクタによって予測される表現を中間サンプリングステップに注入する表現アライメントプロジェクタを用いたガイダンススキームを導入し,モデルアーキテクチャを変更することなく効果的なセマンティックアンカーを提供する。
例えば、REPA-XL/2は5.9から3.3に改善され、提案手法はSiTモデルに適用した際の代表的ガイダンスよりも優れていた。
このアプローチはさらに、分類器のないガイダンスと組み合わせることで、セマンティックコヒーレンスと視覚的忠実度を向上する。
これらの結果は,表現インフォームド拡散サンプリングを意味保存と画像整合性の強化のための実践的戦略として確立する。
関連論文リスト
- Disentangled representations via score-based variational autoencoders [21.955536401578616]
マルチスケール推論のためのスコアベースオートエンコーダ(SAMI)を提案する。
SAMIは、基礎となる拡散過程のスコアベースのガイダンスを通じて表現を学ぶ、原則化された目的を定式化する。
最小限の追加訓練で事前学習した拡散モデルから有用な表現を抽出することができる。
論文 参考訳(メタデータ) (2025-12-18T23:42:10Z) - Align & Invert: Solving Inverse Problems with Diffusion and Flow-based Models via Representational Alignment [13.028121107802127]
逆問題では、事前訓練された生成モデルが先行として使用される。
本稿では,拡散モデルとフローベースモデル間の表現アライメント(REPA)を適用することを提案する。
モデル表現と近似的対象特徴との整合性は、再構成の忠実度と知覚的リアリズムを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-11-21T00:37:04Z) - Cross-Subject Mind Decoding from Inaccurate Representations [42.19569985029642]
正確なデコード表現予測のためのBi Autoencoder Intertwiningフレームワークを提案する。
本手法は,定性評価と定量的評価の両方において,ベンチマークデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-25T08:45:02Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。