論文の概要: ToddlerDiffusion: Flash Interpretable Controllable Diffusion Model
- arxiv url: http://arxiv.org/abs/2311.14542v1
- Date: Fri, 24 Nov 2023 15:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:48:29.702739
- Title: ToddlerDiffusion: Flash Interpretable Controllable Diffusion Model
- Title(参考訳): childdiffusion:フラッシュ解釈可能な制御可能な拡散モデル
- Authors: Eslam Mohamed Bakr, Liangbing Zhao, Vincent Tao Hu, Matthieu Cord,
Patrick Perez, Mohamed Elhoseiny
- Abstract要約: ToddlerDiffusionは、人間の生成システムにインスパイアされた解釈可能な2D拡散画像合成フレームワークである。
提案手法では,生成過程を簡易かつ解釈可能な段階に分解し,輪郭,パレット,詳細なカラー画像を生成する。
- 参考スコア(独自算出の注目度): 68.16230122583634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based generative models excel in perceptually impressive synthesis
but face challenges in interpretability. This paper introduces
ToddlerDiffusion, an interpretable 2D diffusion image-synthesis framework
inspired by the human generation system. Unlike traditional diffusion models
with opaque denoising steps, our approach decomposes the generation process
into simpler, interpretable stages; generating contours, a palette, and a
detailed colored image. This not only enhances overall performance but also
enables robust editing and interaction capabilities. Each stage is meticulously
formulated for efficiency and accuracy, surpassing Stable-Diffusion (LDM).
Extensive experiments on datasets like LSUN-Churches and COCO validate our
approach, consistently outperforming existing methods. ToddlerDiffusion
achieves notable efficiency, matching LDM performance on LSUN-Churches while
operating three times faster with a 3.76 times smaller architecture. Our source
code is provided in the supplementary material and will be publicly accessible.
- Abstract(参考訳): 拡散に基づく生成モデルは知覚的に印象的な合成に優れるが、解釈可能性の課題に直面している。
本稿では,人間の生成システムに触発された解釈可能な2次元拡散画像合成フレームワークToddlerDiffusionを紹介する。
不透明なデノベーションステップを持つ従来の拡散モデルとは異なり、我々の手法は生成プロセスをよりシンプルで解釈可能なステージに分解し、輪郭、パレット、詳細なカラー画像を生成する。
これにより全体的なパフォーマンスが向上するだけでなく、堅牢な編集やインタラクションも可能になる。
各ステージは効率と精度を慎重に定式化し、安定拡散(LDM)を超える。
LSUN-ChurchesやCOCOといったデータセットに関する大規模な実験は、我々のアプローチを検証し、既存の手法を一貫して上回ります。
ToddlerDiffusionはLSUN-ChurchesのLDM性能を3倍高速化し、アーキテクチャは3.76倍の高速化を実現している。
私たちのソースコードは補足資料で提供されており、公開アクセス可能です。
関連論文リスト
- Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。