論文の概要: ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.06573v1
- Date: Mon, 11 Dec 2023 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:44:55.715300
- Title: ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models
- Title(参考訳): ControlNet-XS:テキスト-画像拡散モデル制御のための効率的かつ効果的なアーキテクチャの設計
- Authors: Denis Zavadski, Johann-Friedrich Feiden, Carsten Rother
- Abstract要約: 一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
- 参考スコア(独自算出の注目度): 21.379896810560282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of image synthesis has made tremendous strides forward in the last
years. Besides defining the desired output image with text-prompts, an
intuitive approach is to additionally use spatial guidance in form of an image,
such as a depth map. For this, a recent and highly popular approach is to use a
controlling network, such as ControlNet, in combination with a pre-trained
image generation model, such as Stable Diffusion. When evaluating the design of
existing controlling networks, we observe that they all suffer from the same
problem of a delay in information flowing between the generation and
controlling process. This, in turn, means that the controlling network must
have generative capabilities. In this work we propose a new controlling
architecture, called ControlNet-XS, which does not suffer from this problem,
and hence can focus on the given task of learning to control. In contrast to
ControlNet, our model needs only a fraction of parameters, and hence is about
twice as fast during inference and training time. Furthermore, the generated
images are of higher quality and the control is of higher fidelity. All code
and pre-trained models will be made publicly available.
- Abstract(参考訳): 画像合成の分野はここ数年で飛躍的な進歩を遂げている。
テキストプロンプトで所望の出力画像を定義することに加えて、直感的なアプローチは深度マップのような画像の形で空間的ガイダンスを追加することである。
このため、最近の非常に人気のあるアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
既存の制御ネットワークの設計を評価する際に、生成と制御プロセスの間を流れる情報の遅延と同じ問題に悩まされていることを観察する。
これは、制御ネットワークが生成能力を持つ必要があることを意味する。
本研究では,この問題に苦しむことなく,制御する学習のタスクに集中できる新しい制御アーキテクチャ,controlnet-xsを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍高速です。
さらに、生成された画像は高品質であり、制御は忠実度が高い。
すべてのコードと事前訓練されたモデルは公開されます。
関連論文リスト
- Layout-to-Image Generation with Localized Descriptions using ControlNet
with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。
制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文 参考訳(メタデータ) (2024-02-20T22:15:13Z) - FineControlNet: Fine-level Text Control for Image Generation with
Spatially Aligned Text Control Injection [28.65209293141492]
FineControlNetは、正確なポーズ制御能力を維持しながら、各インスタンスの外観を細かく制御する。
FineControlNetは、ユーザが提供したインスタンス固有のテキストプロンプトとポーズに従うイメージを生成する上で、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Meta ControlNet: Enhancing Task Adaptation via Meta Learning [111.16980465577682]
近年,拡散に基づく画像合成が注目されている。
画像ベースのプロンプトを使用するControlNetは、キャニーエッジ検出などのイメージタスクに強力な能力を示し、これらのプロンプトによく適合した画像を生成する。
最近の文脈学習アプローチは適応性を改善しているが、主にエッジベースのタスクに向いており、ペア化された例に依存している。
本稿では,タスクに依存しないメタ学習技術を採用し,新しい層凍結設計を特徴とするMeta ControlNet法を提案する。
論文 参考訳(メタデータ) (2023-12-03T01:36:45Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - Verification of Image-based Neural Network Controllers Using Generative
Models [30.34898838361206]
本稿では,GAN (Generative Adversarial Network) を学習し,入力画像に状態をマップする手法を提案する。
発電機ネットワークと制御ネットワークを連結することにより、低次元の入力空間を有するネットワークを得る。
本手法は,自律航空機のタクシー問題に対して,画像ベースニューラルネットワークコントローラの安全性保証を行う。
論文 参考訳(メタデータ) (2021-05-14T23:18:05Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。