論文の概要: ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge
- arxiv url: http://arxiv.org/abs/2311.14542v2
- Date: Sat, 05 Oct 2024 15:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:13.478713
- Title: ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge
- Title(参考訳): Toddler拡散:カスケード型シュレーディンガー橋を用いた対話型構造化画像生成
- Authors: Eslam Abdelrahman, Liangbing Zhao, Vincent Tao Hu, Matthieu Cord, Patrick Perez, Mohamed Elhoseiny,
- Abstract要約: ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
- 参考スコア(独自算出の注目度): 63.00793292863
- License:
- Abstract: Diffusion models break down the challenging task of generating data from high-dimensional distributions into a series of easier denoising steps. Inspired by this paradigm, we propose a novel approach that extends the diffusion framework into modality space, decomposing the complex task of RGB image generation into simpler, interpretable stages. Our method, termed ToddlerDiffusion, cascades modality-specific models, each responsible for generating an intermediate representation, such as contours, palettes, and detailed textures, ultimately culminating in a high-quality RGB image. Instead of relying on the naive LDM concatenation conditioning mechanism to connect the different stages together, we employ Schr\"odinger Bridge to determine the optimal transport between different modalities. Although employing a cascaded pipeline introduces more stages, which could lead to a more complex architecture, each stage is meticulously formulated for efficiency and accuracy, surpassing Stable-Diffusion (LDM) performance. Modality composition not only enhances overall performance but enables emerging proprieties such as consistent editing, interaction capabilities, high-level interpretability, and faster convergence and sampling rate. Extensive experiments on diverse datasets, including LSUN-Churches, ImageNet, CelebHQ, and LAION-Art, demonstrate the efficacy of our approach, consistently outperforming state-of-the-art methods. For instance, ToddlerDiffusion achieves notable efficiency, matching LDM performance on LSUN-Churches while operating 2$\times$ faster with a 3$\times$ smaller architecture. The project website is available at: https://toddlerdiffusion.github.io/website/
- Abstract(参考訳): 拡散モデルは、高次元分布からデータを生成するという困難なタスクを、より簡単な段階に分割する。
このパラダイムに着想を得て,RGB画像生成の複雑なタスクをシンプルかつ解釈可能な段階に分解し,拡散フレームワークをモダリティ空間に拡張する手法を提案する。
提案手法はToddler Diffusionと呼ばれ,それぞれが輪郭,パレット,詳細なテクスチャなどの中間表現を生成し,最終的に高品質なRGB画像に終止符を打つ。
異なる段階を繋ぐために、単純 LDM 結合条件機構に頼る代わりに、異なるモード間の最適な輸送を決定するためにSchr\"odinger Bridge を用いる。
カスケードパイプラインを採用すると、より多くのステージが導入され、より複雑なアーキテクチャに繋がる可能性があるが、各ステージは効率と正確性のために慎重に定式化され、安定拡散(LDM)性能を上回っている。
モダリティ構成は、全体的なパフォーマンスを高めるだけでなく、一貫した編集、相互作用能力、ハイレベルな解釈可能性、より高速な収束とサンプリング率などの新しいプロパティを可能にする。
LSUN-Churches、ImageNet、CelebHQ、LAION-Artなど、多様なデータセットに関する大規模な実験は、我々のアプローチの有効性を実証し、一貫して最先端の手法よりも優れています。
例えば、ToddlerDiffusionはLSUN-Churches上で2$\times$を、より小さなアーキテクチャで3$\times$を高速に運用しながら、LCMパフォーマンスにマッチする、顕著な効率を実現している。
プロジェクトのWebサイトは以下の通りである。
関連論文リスト
- Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。