Fugu-MT 論文翻訳(概要): AdaDiff: Adaptive Step Selection for Fast Diffusion

論文の概要: AdaDiff: Adaptive Step Selection for Fast Diffusion

arxiv url: http://arxiv.org/abs/2311.14768v1
Date: Fri, 24 Nov 2023 11:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 09:38:49.100238
Title: AdaDiff: Adaptive Step Selection for Fast Diffusion
Title（参考訳）: adadiff:高速拡散のための適応ステップ選択
Authors: Hui Zhang and Zuxuan Wu and Zhen Xing and Jie Shao and Yu-Gang Jiang
Abstract要約: 我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。 AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
参考スコア（独自算出の注目度）: 88.8198344514677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models, as a type of generative models, have achieved impressive results in generating images and videos conditioned on textual conditions. However, the generation process of diffusion models involves denoising for dozens of steps to produce photorealistic images/videos, which is computationally expensive. Unlike previous methods that design ``one-size-fits-all'' approaches for speed up, we argue denoising steps should be sample-specific conditioned on the richness of input texts. To this end, we introduce AdaDiff, a lightweight framework designed to learn instance-specific step usage policies, which are then used by the diffusion model for generation. AdaDiff is optimized using a policy gradient method to maximize a carefully designed reward function, balancing inference time and generation quality. We conduct experiments on three image generation and two video generation benchmarks and demonstrate that our approach achieves similar results in terms of visual quality compared to the baseline using a fixed 50 denoising steps while reducing inference time by at least 33%, going as high as 40%. Furthermore, our qualitative analysis shows that our method allocates more steps to more informative text conditions and fewer steps to simpler text conditions.
Abstract（参考訳）: 拡散モデル(Diffusion model)は、生成モデルの一種であり、テキスト条件で条件付けされた画像やビデオを生成するという印象的な結果を得た。しかしながら、拡散モデルの生成プロセスは、計算コストが高いフォトリアリスティックな画像/ビデオを生成するための数十のステップをデノベーションすることを含む。スピードアップのために ``one-size-fits-all'' アプローチを設計する従来の方法とは異なり、デノナイズステップは入力テキストのリッチ性に基づいてサンプル固有条件で設計されるべきである。この目的のために,インスタンス固有のステップ利用ポリシーを学習するために設計された軽量フレームワークであるAdaDiffを紹介した。 AdaDiffはポリシー勾配法を用いて最適化され、注意深く設計された報酬関数を最大化し、推論時間と生成品質のバランスをとる。我々は3つの画像生成と2つのビデオ生成のベンチマーク実験を行い、提案手法がベースラインと比較して視覚的品質の点で類似した結果が得られることを実証した。さらに,本手法は,より情報的なテキスト条件により多くのステップを割り当て,より単純なテキスト条件に少ないステップを割り当てることを示す。

関連論文リスト

Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文参考訳（メタデータ） (2024-12-08T11:36:32Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文参考訳（メタデータ） (2024-10-13T15:19:18Z)
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。 FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文参考訳（メタデータ） (2024-09-26T17:59:51Z)
Multistep Distillation of Diffusion Models via Moment Matching [29.235113968156433]
本稿では,拡散モデルをより高速にサンプル化するための新しい手法を提案する。本手法は,クリーンデータの条件付き期待値に適合して,多段階拡散モデルを数段階モデルに蒸留する。我々は、Imagenetデータセット上で、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2024-06-06T14:20:21Z)
Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文参考訳（メタデータ） (2024-05-08T08:38:28Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-09-19T08:57:24Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文参考訳（メタデータ） (2023-05-30T05:56:58Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文参考訳（メタデータ） (2022-03-08T11:20:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。