Fugu-MT 論文翻訳(概要): Adding Conditional Control to Text-to-Image Diffusion Models

論文の概要: Adding Conditional Control to Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2302.05543v3
Date: Sun, 26 Nov 2023 22:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 17:07:34.543135
Title: Adding Conditional Control to Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルへの条件制御の追加
Authors: Lvmin Zhang and Anyi Rao and Maneesh Agrawala
Abstract要約: 大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。 ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
参考スコア（独自算出の注目度）: 37.98427255384245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ControlNet, a neural network architecture to add spatial conditioning controls to large, pretrained text-to-image diffusion models. ControlNet locks the production-ready large diffusion models, and reuses their deep and robust encoding layers pretrained with billions of images as a strong backbone to learn a diverse set of conditional controls. The neural architecture is connected with "zero convolutions" (zero-initialized convolution layers) that progressively grow the parameters from zero and ensure that no harmful noise could affect the finetuning. We test various conditioning controls, eg, edges, depth, segmentation, human pose, etc, with Stable Diffusion, using single or multiple conditions, with or without prompts. We show that the training of ControlNets is robust with small (<50k) and large (>1m) datasets. Extensive results show that ControlNet may facilitate wider applications to control image diffusion models.
Abstract（参考訳）: 大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。 controlnetはプロダクション対応の大規模拡散モデルをロックし、数十億のイメージでトレーニングされた深層で堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールのセットを学ぶ。ニューラル・アーキテクチャは「ゼロ畳み込み」(ゼロ初期化畳み込み層)と接続され、パラメータを徐々にゼロから成長させ、有害なノイズが微調整に影響を与えないようにする。条件付制御,例えばエッジ,エッジ,深さ,セグメンテーション,人間のポーズ等を,プロンプトの有無にかかわらず,単一または複数条件を用いて安定した拡散でテストする。 ControlNetsのトレーニングは、小さな (50k) と大きな (>1m) データセットで堅牢であることを示す。画像拡散モデルを制御するため,コントロールネットは広い範囲の応用を促進する可能性がある。

関連論文リスト

CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文参考訳（メタデータ） (2024-10-12T07:04:32Z)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文参考訳（メタデータ） (2024-08-23T11:48:29Z)
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。 6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文参考訳（メタデータ） (2024-04-15T17:45:36Z)
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。 ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文参考訳（メタデータ） (2024-04-11T17:59:09Z)
ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems [19.02295657801464]
本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。我々は,深度,キャニーエッジ,セマンティックセグメンテーションなどの画素レベルのガイダンスに対する最先端のアプローチよりも優れており,人間のポーズのゆるいキーポイントガイダンスと同等である。すべてのコードと事前訓練されたモデルは公開されます。
論文参考訳（メタデータ） (2023-12-11T17:58:06Z)
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文参考訳（メタデータ） (2023-06-01T17:55:32Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。