論文の概要: ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
- arxiv url: http://arxiv.org/abs/2404.07987v1
- Date: Thu, 11 Apr 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.938662
- Title: ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback
- Title(参考訳): ControlNet++: 効率的な一貫性フィードバックによる条件制御の改善
- Authors: Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen,
- Abstract要約: ControlNet++は、生成した画像と条件制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する。
ControlNet++はさまざまな条件下での制御性を大幅に改善する。
- 参考スコア(独自算出の注目度): 20.910939141948123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls. In this paper, we reveal that existing methods still face significant challenges in generating images that align with the image conditional controls. To this end, we propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls. Specifically, for an input conditional control, we use a pre-trained discriminative reward model to extract the corresponding condition of the generated images, and then optimize the consistency loss between the input conditional control and extracted condition. A straightforward implementation would be generating images from random noises and then calculating the consistency loss, but such an approach requires storing gradients for multiple sampling timesteps, leading to considerable time and memory costs. To address this, we introduce an efficient reward strategy that deliberately disturbs the input images by adding noise, and then uses the single-step denoised images for reward fine-tuning. This avoids the extensive costs associated with image sampling, allowing for more efficient reward fine-tuning. Extensive experiments show that ControlNet++ significantly improves controllability under various conditional controls. For example, it achieves improvements over ControlNet by 7.9% mIoU, 13.4% SSIM, and 7.6% RMSE, respectively, for segmentation mask, line-art edge, and depth conditions.
- Abstract(参考訳): テキストから画像への拡散モデルの制御性を高めるため、ControlNetのような既存の作業には画像ベースの条件制御が組み込まれている。
本稿では,画像条件制御と整合した画像を生成する上で,既存の手法が依然として重大な課題に直面していることを明らかにする。
そこで本研究では,生成した画像と条件付き制御との間の画素レベルのサイクル一貫性を明示的に最適化することにより,制御可能な生成を改善する新しい手法であるControlNet++を提案する。
具体的には、入力条件制御のために、事前学習した識別的報酬モデルを用いて、生成された画像の対応する条件を抽出し、入力条件制御と抽出条件との整合損失を最適化する。
単純な実装では、ランダムノイズから画像を生成し、一貫性損失を計算するが、このアプローチでは複数のサンプリングタイムステップに勾配を格納する必要があるため、かなりの時間とメモリコストがかかる。
そこで本稿では,ノイズを付加して入力画像を意図的に妨害する効率的な報奨戦略を導入し,さらに1ステップの復号化画像を用いて報酬の微調整を行う。
これにより、画像サンプリングに伴う広範なコストが回避され、より効率的な報酬の微調整が可能になる。
大規模な実験により、ControlNet++は様々な条件付きコントロール下でコントロール可能性を大幅に改善することが示された。
例えば、セグメンテーションマスク、ラインアートエッジ、深さ条件に対して、ControlNetの7.9%のmIoU、13.4%のSSIM、および7.6%のRMSEの改善を実現している。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - When ControlNet Meets Inexplicit Masks: A Case Study of ControlNet on
its Contour-following Ability [97.82197656469972]
ControlNetは、ユーザーが提供するマスクの正確な輪郭と密に一致したコンテンツを作成するのに長けている。
これらのマスクがノイズを含む場合、非専門家で頻繁に発生するため、出力には不要なアーティファクトが含まれる。
筆者らはまず, 深部分析により, 種々の劣化レベルを有する非説明マスクの影響を抑える上で重要な役割について述べる。
不特定マスクによる制御性を高めるため、劣化推定器と形状優先変調ブロックからなる高度な形状認識制御ネットを考案した。
論文 参考訳(メタデータ) (2024-03-01T11:45:29Z) - Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - Self-optimizing adaptive optics control with Reinforcement Learning for
high-contrast imaging [0.0]
本稿では,モデルレス強化学習を用いて,閉ループ予測制御のためのリカレントニューラルネットワークコントローラを最適化する方法について述べる。
シミュレーションでは,我々のアルゴリズムが高次変形可能なミラーの制御にも適用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-24T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。