論文の概要: RectifiedHR: High-Resolution Diffusion via Energy Profiling and Adaptive Guidance Scheduling
- arxiv url: http://arxiv.org/abs/2507.09441v1
- Date: Sun, 13 Jul 2025 01:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.256012
- Title: RectifiedHR: High-Resolution Diffusion via Energy Profiling and Adaptive Guidance Scheduling
- Title(参考訳): RectifiedHR:Energy ProfilingとAdaptive Guidance Schedulingによる高分解能拡散
- Authors: Ankit Sanjyal,
- Abstract要約: 拡散モデルによる高分解能画像合成は、しばしば、視覚的品質を低下させるエネルギー不安定性とガイダンスアーティファクトに悩まされる。
我々は,サンプリング中の潜時エネルギー景観を分析し,安定したエネルギー軌道を維持する適応型分類器フリーガイダンス(CFG)のスケジュールを提案する。
提案手法では, 誘導強度を時間とともに調整し, 安定度(0.9998) と整合度(0.9873) を固定誘導法と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution image synthesis with diffusion models often suffers from energy instabilities and guidance artifacts that degrade visual quality. We analyze the latent energy landscape during sampling and propose adaptive classifier-free guidance (CFG) schedules that maintain stable energy trajectories. Our approach introduces energy-aware scheduling strategies that modulate guidance strength over time, achieving superior stability scores (0.9998) and consistency metrics (0.9873) compared to fixed-guidance approaches. We demonstrate that DPM++ 2M with linear-decreasing CFG scheduling yields optimal performance, providing sharper, more faithful images while reducing artifacts. Our energy profiling framework serves as a powerful diagnostic tool for understanding and improving diffusion model behavior.
- Abstract(参考訳): 拡散モデルによる高分解能画像合成は、しばしば、視覚的品質を低下させるエネルギー不安定性とガイダンスアーティファクトに悩まされる。
我々は,サンプリング中の潜時エネルギー景観を分析し,安定したエネルギー軌道を維持する適応型分類器フリーガイダンス(CFG)のスケジュールを提案する。
提案手法では, 誘導強度を時間とともに調整し, 安定度(0.9998) と整合度(0.9873) を固定誘導法と比較する。
CFGスケジューリングを線形に改善したDPM++ 2Mは、よりシャープで忠実な画像を提供しながら、アーティファクトを低減し、最適な性能が得られることを示した。
我々のエネルギープロファイリングフレームワークは拡散モデルの振る舞いを理解し改善するための強力な診断ツールとして機能する。
関連論文リスト
- Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models [29.69501919628436]
拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。
しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。
学習不要な高分解能合成のためのソリューションであるRectifiedHRを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:03:26Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention [0.7770029179741429]
条件付き拡散モデルは、視覚コンテンツ生成において顕著な成功を収めている。
非条件ガイダンスを拡張しようとする最近の試みはテクニックに依存しており、その結果、最適以下の生成品質が得られる。
Smoothed Energy Guidance (SEG) を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:59:09Z) - PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Alignment [91.38256332633544]
PASTAは、HDRデゴスティングのためのプログレッシブアグリゲーションアグリゲーション・時空間アライメントフレームワークである。
提案手法は,特徴分散中の階層的表現を活用することにより,有効性と効率性を実現する。
実験結果から,従来のSOTA法よりもPASTAの方が視覚的品質と性能の両方で優れていることが示された。
論文 参考訳(メタデータ) (2024-03-15T15:05:29Z) - Trajectory Consistency Distillation: Improved Latent Consistency Distillation by Semi-Linear Consistency Function with Trajectory Mapping [75.72212215739746]
軌道整合性蒸留(TCD)は、軌道整合性と戦略的サンプリングを含む。
TCDは低NFEで画像品質を著しく向上させるが、教師モデルと比較してより詳細な結果が得られる。
論文 参考訳(メタデータ) (2024-02-29T13:44:14Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。