論文の概要: OmniControlNet: Dual-stage Integration for Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2406.05871v1
- Date: Sun, 9 Jun 2024 18:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.679281
- Title: OmniControlNet: Dual-stage Integration for Conditional Image Generation
- Title(参考訳): OmniControlNet: 条件付き画像生成のためのデュアルステージ統合
- Authors: Yilin Wang, Haiyang Xu, Xiang Zhang, Zeyuan Chen, Zhizhou Sha, Zirui Wang, Zhuowen Tu,
- Abstract要約: 我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
- 参考スコア(独自算出の注目度): 61.1432268643639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a two-way integration for the widely adopted ControlNet by integrating external condition generation algorithms into a single dense prediction method and incorporating its individually trained image generation processes into a single model. Despite its tremendous success, the ControlNet of a two-stage pipeline bears limitations in being not self-contained (e.g. calls the external condition generation algorithms) with a large model redundancy (separately trained models for different types of conditioning inputs). Our proposed OmniControlNet consolidates 1) the condition generation (e.g., HED edges, depth maps, user scribble, and animal pose) by a single multi-tasking dense prediction algorithm under the task embedding guidance and 2) the image generation process for different conditioning types under the textual embedding guidance. OmniControlNet achieves significantly reduced model complexity and redundancy while capable of producing images of comparable quality for conditioned text-to-image generation.
- Abstract(参考訳): 外部条件生成アルゴリズムを1つの高密度予測手法に統合し、個別に訓練された画像生成プロセスを1つのモデルに組み込むことにより、広く採用されているControlNetの双方向統合を提供する。
その大きな成功にもかかわらず、2段階パイプラインのコントロールネットは、大きなモデル冗長性(異なるタイプの条件入力に対して個別に訓練されたモデル)で自己完結しない(例えば、外部条件生成アルゴリズムと呼ばれる)という制限を負っている。
提案するOmniControlNetの統合
1)タスク埋め込み指導の下での1つのマルチタスク密度予測アルゴリズムによる条件生成(例えば、HEDエッジ、深度マップ、ユーザスクリブル、動物のポーズ)
2) テキスト埋め込み指導における条件の異なる画像生成過程について検討した。
OmniControlNetは、条件付きテキスト・画像生成に匹敵する品質の画像を生成すると同時に、モデルの複雑さと冗長性を著しく低減する。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Attack Deterministic Conditional Image Generative Models for Diverse and
Controllable Generation [17.035117118768945]
本稿では,多様な制御可能な画像生成のためのプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
我々の研究は、低レベルの視覚タスクに敵攻撃を適用するための扉を開く。
論文 参考訳(メタデータ) (2024-03-13T06:57:23Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。