論文の概要: Adaptively Controllable Diffusion Model for Efficient Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2411.15199v1
- Date: Tue, 19 Nov 2024 21:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:39.069476
- Title: Adaptively Controllable Diffusion Model for Efficient Conditional Image Generation
- Title(参考訳): 効率的な条件画像生成のための適応制御可能な拡散モデル
- Authors: Yucheng Xing, Xiaodong Liu, Xin Wang,
- Abstract要約: 本稿では,新たな適応フレームワークである$textitAdaptively Controllable Diffusion (AC-Diff) Model$を提案する。
AC-Diffは、文学拡散モデルと同じ性能を維持しつつ、平均生成ステップ数と実行時間を大幅に削減することが期待されている。
- 参考スコア(独自算出の注目度): 8.857237929151795
- License:
- Abstract: With the development of artificial intelligence, more and more attention has been put onto generative models, which represent the creativity, a very important aspect of intelligence. In recent years, diffusion models have been studied and proven to be more reasonable and effective than previous methods. However, common diffusion frameworks suffer from controllability problems. Although extra conditions have been considered by some work to guide the diffusion process for a specific target generation, it only controls the generation result but not its process. In this work, we propose a new adaptive framework, $\textit{Adaptively Controllable Diffusion (AC-Diff) Model}$, to automatically and fully control the generation process, including not only the type of generation result but also the length and parameters of the generation process. Both inputs and conditions will be first fed into a $\textit{Conditional Time-Step (CTS) Module}$ to determine the number of steps needed for a generation. Then according to the length of the process, the diffusion rate parameters will be estimated through our $\textit{Adaptive Hybrid Noise Schedule (AHNS) Module}$. We further train the network with the corresponding adaptive sampling mechanism to learn how to adjust itself according to the conditions for the overall performance improvement. To enable its practical applications, AC-Diff is expected to largely reduce the average number of generation steps and execution time while maintaining the same performance as done in the literature diffusion models.
- Abstract(参考訳): 人工知能の発展に伴い、創造性を表す生成モデルにますます注目が向けられ、人工知能の非常に重要な側面である。
近年では拡散モデルが研究され、従来の方法よりも合理的で効果的であることが証明されている。
しかし、一般的な拡散フレームワークは制御性の問題に悩まされる。
特定のターゲット生成のための拡散過程を導くために、余分な条件が検討されているが、生成結果のみを制御するが、その過程は制御しない。
本稿では、生成結果の種類だけでなく、生成プロセスの長さやパラメータを含む生成プロセスを自動的にかつ完全に制御する新しい適応フレームワークである$\textit{Adaptively Controllable Diffusion (AC-Diff) Modelの提案を行う。
入力と条件は、まず$\textit{Conditional Time-Step (CTS) Module}$に入力され、世代に必要なステップの数を決定する。
次に、プロセスの長さに応じて拡散率パラメータを $\textit{Adaptive Hybrid Noise Schedule (AHNS) Module}$ で推定する。
さらに、適応サンプリング機構を用いてネットワークをトレーニングし、全体的な性能改善の条件に応じて自己調整の仕方を学習する。
実用的な応用を実現するため,AC-Diffは文学拡散モデルと同等の性能を維持しつつ,平均生成ステップ数と実行時間を大幅に削減することが期待されている。
関連論文リスト
- Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.76814568163353]
本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。
このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。
様々なプルーニングや概念未学習の手法と互換性がある。
論文 参考訳(メタデータ) (2024-12-19T19:13:18Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models [4.703252654452953]
本稿では,AMDM(Aggregation of Multiple Diffusion Models)という新しいアルゴリズムを提案する。
AMDMは複数の拡散モデルから特定のモデルに特徴を合成し、きめ細かい制御のために特定の特徴を活性化する。
実験結果から,AMDMはトレーニング無しで微粒化制御を著しく改善し,その効果が証明された。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。
最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。
提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文 参考訳(メタデータ) (2024-08-01T17:59:59Z) - D-Flow: Differentiating through Flows for Controlled Generation [37.80603174399585]
フローを微分することで生成プロセスを制御するフレームワークであるD-Flowを紹介する。
我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を予測できるというキーとなる観察によって、この枠組みを動機付けている。
我々は,画像と音声の逆問題や条件分子生成など,線形および非線形に制御された生成問題に対する枠組みを検証する。
論文 参考訳(メタデータ) (2024-02-21T18:56:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。