論文の概要: ECNet: Effective Controllable Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.18417v1
- Date: Wed, 27 Mar 2024 10:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:27:38.434443
- Title: ECNet: Effective Controllable Text-to-Image Diffusion Models
- Title(参考訳): ECNet: 効果的な制御可能なテキスト-画像拡散モデル
- Authors: Sicheng Li, Keqiang Sun, Zhixin Lai, Xiaoshi Wu, Feng Qiu, Haoran Xie, Kazunori Miyata, Hongsheng Li,
- Abstract要約: 本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
- 参考スコア(独自算出の注目度): 31.21525123716149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conditional text-to-image diffusion models have garnered significant attention in recent years. However, the precision of these models is often compromised mainly for two reasons, ambiguous condition input and inadequate condition guidance over single denoising loss. To address the challenges, we introduce two innovative solutions. Firstly, we propose a Spatial Guidance Injector (SGI) which enhances conditional detail by encoding text inputs with precise annotation information. This method directly tackles the issue of ambiguous control inputs by providing clear, annotated guidance to the model. Secondly, to overcome the issue of limited conditional supervision, we introduce Diffusion Consistency Loss (DCL), which applies supervision on the denoised latent code at any given time step. This encourages consistency between the latent code at each time step and the input signal, thereby enhancing the robustness and accuracy of the output. The combination of SGI and DCL results in our Effective Controllable Network (ECNet), which offers a more accurate controllable end-to-end text-to-image generation framework with a more precise conditioning input and stronger controllable supervision. We validate our approach through extensive experiments on generation under various conditions, such as human body skeletons, facial landmarks, and sketches of general objects. The results consistently demonstrate that our method significantly enhances the controllability and robustness of the generated images, outperforming existing state-of-the-art controllable text-to-image models.
- Abstract(参考訳): 近年,条件付きテキスト・画像拡散モデルが注目されている。
しかし、これらのモデルの精度は、主に不明瞭な条件入力と、単一騒音損失に対する不適切な条件ガイダンスの2つの理由により妥協されることが多い。
この課題に対処するために、私たちは2つの革新的な解決策を紹介します。
まず,テキスト入力を高精度なアノテーション情報で符号化することで,条件の詳細性を高める空間誘導インジェクタ(SGI)を提案する。
この方法は、モデルに対して明確な注釈付きガイダンスを提供することにより、曖昧な制御入力の問題に対処する。
第二に、条件付き監督の制限を克服するため、任意の段階において遅延コードに対する監督を適用する拡散整合損失(DCL)を導入します。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
SGIとDCLの組み合わせにより、より正確な制御可能なエンドツーエンドのテキスト・ツー・イメージ生成フレームワークと、より正確な条件入力とより強力な制御可能な監視を提供するECNet(Effective Controllable Network)が実現される。
人体骨格,顔のランドマーク,一般的な物体のスケッチなど,様々な条件下での発生に関する広範な実験を通じて,我々のアプローチを検証する。
その結果,提案手法は生成した画像の可制御性と頑健性を大幅に向上させ,既存の制御可能なテキスト・画像モデルよりも優れることを示した。
関連論文リスト
- ControlAR: Controllable Image Generation with Autoregressive Models [40.74890550081335]
自動回帰画像生成モデルに空間制御を統合するための効率的なフレームワークであるControlARを導入する。
ControlARは条件付き復号法を利用して、制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。
その結果,コントロールARは従来の制御可能な拡散モデルを上回ることが示唆された。
論文 参考訳(メタデータ) (2024-10-03T17:28:07Z) - CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。
ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文 参考訳(メタデータ) (2024-04-11T17:59:09Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。