論文の概要: Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint
Method
- arxiv url: http://arxiv.org/abs/2312.12030v1
- Date: Tue, 19 Dec 2023 10:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:03:26.065459
- Title: Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint
Method
- Title(参考訳): シンプレクティック・アジョイント法による高精度誘導拡散サンプリングに向けて
- Authors: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
- Abstract要約: 本研究では,2つの段階の勾配誘導を算出したSymphlectic Adjoint Guidance (SAG)を提案する。
SAGは、ガイド画像およびビデオ生成タスクのベースラインと比較して画質の高い画像を生成する。
- 参考スコア(独自算出の注目度): 110.9458914721516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via $n$ function calls, where $n$ serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.
- Abstract(参考訳): 拡散モデルにおけるトレーニング不要誘導サンプリングは、美的評価モデルのような既訓練の既訓練ネットワークを活用して生成プロセスを導く。
現在のトレーニング不要誘導サンプリングアルゴリズムはクリーン画像の一段階推定に基づいて誘導エネルギー関数を求める。
しかし、既成の事前学習されたネットワークはクリーン画像上で訓練されているため、クリーン画像のワンステップ推定手順は、特に拡散モデルにおける生成過程の初期段階において不正確である可能性がある。
これにより、早い段階での指導が不正確になる。
この問題を解決するために,2つの段階の勾配誘導を計算するシンプレクティック・アジョイント・ガイダンス(SAG)を提案する。
まず、SAGは$n$関数呼び出しによってクリーンなイメージを推定し、$n$は特定の画像品質要件を満たすように調整可能なフレキシブルなハイパーパラメータとして機能する。
第2に、SAGはシンプレクティック・アジョイント法を用いて、メモリ要求の観点で精度よく効率的に勾配を求める。
広汎な実験により、SAGはガイド画像および映像生成タスクのベースラインと比較して画質の高い画像を生成することが示された。
関連論文リスト
- Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Deep Learning Adapted Acceleration for Limited-view Photoacoustic
Computed Tomography [1.8830359888767887]
光音響計算トモグラフィ(PACT)は、PA信号検出のための超音波トランスデューサアレイでターゲットを照らすために、焦点のない大面積の光を使用する。
限定ビュー問題は、幾何学的条件の制限により、PACTの低画質の画像を引き起こす可能性がある。
数学的変動モデルとディープラーニングを組み合わせたモデルベース手法を提案する。
論文 参考訳(メタデータ) (2021-11-08T02:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。