論文の概要: Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector
- arxiv url: http://arxiv.org/abs/2601.22468v1
- Date: Fri, 30 Jan 2026 02:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.166163
- Title: Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector
- Title(参考訳): 表現アライメントプロジェクタを用いた拡散モデルの学習自由表現指導
- Authors: Wenqiang Zu, Shenghao Xie, Bo Lei, Lei Ma,
- Abstract要約: 本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
- 参考スコア(独自算出の注目度): 14.027059904924135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in generative modeling has enabled high-quality visual synthesis with diffusion-based frameworks, supporting controllable sampling and large-scale training. Inference-time guidance methods such as classifier-free and representative guidance enhance semantic alignment by modifying sampling dynamics; however, they do not fully exploit unsupervised feature representations. Although such visual representations contain rich semantic structure, their integration during generation is constrained by the absence of ground-truth reference images at inference. This work reveals semantic drift in the early denoising stages of diffusion transformers, where stochasticity results in inconsistent alignment even under identical conditioning. To mitigate this issue, we introduce a guidance scheme using a representation alignment projector that injects representations predicted by a projector into intermediate sampling steps, providing an effective semantic anchor without modifying the model architecture. Experiments on SiTs and REPAs show notable improvements in class-conditional ImageNet synthesis, achieving substantially lower FID scores; for example, REPA-XL/2 improves from 5.9 to 3.3, and the proposed method outperforms representative guidance when applied to SiT models. The approach further yields complementary gains when combined with classifier-free guidance, demonstrating enhanced semantic coherence and visual fidelity. These results establish representation-informed diffusion sampling as a practical strategy for reinforcing semantic preservation and image consistency.
- Abstract(参考訳): 生成モデリングの最近の進歩により、拡散型フレームワークによる高品質な視覚合成が可能となり、制御可能なサンプリングと大規模トレーニングがサポートされた。
分類器フリーや代表指導のような推論時間誘導手法はサンプリングダイナミクスを改良することで意味的アライメントを高めるが、教師なしの特徴表現を完全に活用するわけではない。
このような視覚表現は、豊富な意味構造を含むが、生成時の統合は、推論時に接地真実参照画像が存在しないことによって制約される。
この研究は拡散変圧器の初期段階における意味的ドリフトを明らかにし、そこでは確率性は同一条件下でも一貫性のないアライメントをもたらす。
この問題を緩和するために,プロジェクタによって予測される表現を中間サンプリングステップに注入する表現アライメントプロジェクタを用いたガイダンススキームを導入し,モデルアーキテクチャを変更することなく効果的なセマンティックアンカーを提供する。
例えば、REPA-XL/2は5.9から3.3に改善され、提案手法はSiTモデルに適用した際の代表的ガイダンスよりも優れていた。
このアプローチはさらに、分類器のないガイダンスと組み合わせることで、セマンティックコヒーレンスと視覚的忠実度を向上する。
これらの結果は,表現インフォームド拡散サンプリングを意味保存と画像整合性の強化のための実践的戦略として確立する。
関連論文リスト
- Disentangled representations via score-based variational autoencoders [21.955536401578616]
マルチスケール推論のためのスコアベースオートエンコーダ(SAMI)を提案する。
SAMIは、基礎となる拡散過程のスコアベースのガイダンスを通じて表現を学ぶ、原則化された目的を定式化する。
最小限の追加訓練で事前学習した拡散モデルから有用な表現を抽出することができる。
論文 参考訳(メタデータ) (2025-12-18T23:42:10Z) - Align & Invert: Solving Inverse Problems with Diffusion and Flow-based Models via Representational Alignment [13.028121107802127]
逆問題では、事前訓練された生成モデルが先行として使用される。
本稿では,拡散モデルとフローベースモデル間の表現アライメント(REPA)を適用することを提案する。
モデル表現と近似的対象特徴との整合性は、再構成の忠実度と知覚的リアリズムを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-11-21T00:37:04Z) - TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling [53.61290359948953]
タンジェンシャル増幅誘導(TAG)は、下層の拡散モデルを変更することなく、軌道信号のみで動作する。
この誘導過程を1次テイラー展開を利用して定式化する。
TAGは、最小限の計算加算で拡散サンプリング忠実度を改善する、プラグアンドプレイのアーキテクチャに依存しないモジュールである。
論文 参考訳(メタデータ) (2025-10-06T06:53:29Z) - Cross-Subject Mind Decoding from Inaccurate Representations [42.19569985029642]
正確なデコード表現予測のためのBi Autoencoder Intertwiningフレームワークを提案する。
本手法は,定性評価と定量的評価の両方において,ベンチマークデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-25T08:45:02Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。