論文の概要: UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild
- arxiv url: http://arxiv.org/abs/2305.11147v2
- Date: Thu, 25 May 2023 17:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:38:46.928479
- Title: UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild
- Title(参考訳): UniControl:野生で制御可能な視覚生成のための統一拡散モデル
- Authors: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan
Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun
Fu, Ran Xu
- Abstract要約: 制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
- 参考スコア(独自算出の注目度): 179.50771035561507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving machine autonomy and human control often represent divergent
objectives in the design of interactive AI systems. Visual generative
foundation models such as Stable Diffusion show promise in navigating these
goals, especially when prompted with arbitrary languages. However, they often
fall short in generating images with spatial, structural, or geometric
controls. The integration of such controls, which can accommodate various
visual conditions in a single unified model, remains an unaddressed challenge.
In response, we introduce UniControl, a new generative foundation model that
consolidates a wide array of controllable condition-to-image (C2I) tasks within
a singular framework, while still allowing for arbitrary language prompts.
UniControl enables pixel-level-precise image generation, where visual
conditions primarily influence the generated structures and language prompts
guide the style and context. To equip UniControl with the capacity to handle
diverse visual conditions, we augment pretrained text-to-image diffusion models
and introduce a task-aware HyperNet to modulate the diffusion models, enabling
the adaptation to different C2I tasks simultaneously. Trained on nine unique
C2I tasks, UniControl demonstrates impressive zero-shot generation abilities
with unseen visual conditions. Experimental results show that UniControl often
surpasses the performance of single-task-controlled methods of comparable model
sizes. This control versatility positions UniControl as a significant
advancement in the realm of controllable visual generation.
- Abstract(参考訳): 機械の自律性と人間の制御を達成することは、対話型AIシステムの設計において、しばしば異なる目的を表す。
安定拡散のような視覚的生成基盤モデルは、特に任意の言語で刺激された場合、これらの目標をナビゲートすることを約束している。
しかし、しばしば空間的、構造的、幾何学的な制御による画像の生成に不足する。
このようなコントロールの統合は、単一の統一モデルにおいて様々な視覚条件に対応できるが、未対応の課題である。
そこで我々は,単一フレームワーク内で多岐にわたる制御可能な条件と画像(c2i)タスクを統合するとともに,任意の言語プロンプトを許容する,新しい生成基盤モデルであるunicontrolを導入する。
unicontrolはピクセルレベルのpreciseイメージ生成を可能にする。視覚条件は主に生成された構造に影響を与え、言語はスタイルとコンテキストをガイドする。
多様な視覚条件に対応する能力をユニコントロールするために、事前学習されたテキストから画像への拡散モデルを強化し、拡散モデルを変調するタスクアウェアハイパーネットを導入し、異なるc2iタスクに同時に適応できるようにする。
9つのユニークなC2Iタスクで訓練されたUniControlは、目に見えない視覚条件で、印象的なゼロショット生成能力を示す。
実験の結果,ユニコントロールは,モデルサイズに匹敵するシングルタスク制御手法の性能をしばしば上回っていることがわかった。
この制御の汎用性は、UniControlを制御可能な視覚生成の領域における重要な進歩と位置づけている。
関連論文リスト
- CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.50036055679903]
最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。
この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文 参考訳(メタデータ) (2024-06-11T17:59:01Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - FreeControl: Training-Free Spatial Control of Any Text-to-Image
Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。
複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。
トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文 参考訳(メタデータ) (2023-12-12T18:59:14Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。