Fugu-MT 論文翻訳(概要): UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

論文の概要: UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

arxiv url: http://arxiv.org/abs/2305.11147v3
Date: Thu, 2 Nov 2023 17:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 17:44:46.557479
Title: UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
Title（参考訳）: UniControl:野生で制御可能な視覚生成のための統一拡散モデル
Authors: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
Abstract要約: 制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
参考スコア（独自算出の注目度）: 166.25327094261038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
Abstract（参考訳）: 機械の自律性と人間の制御を達成することは、対話型AIシステムの設計において、しばしば異なる目的を表す。安定拡散のような視覚的生成基盤モデルは、特に任意の言語で刺激された場合、これらの目標をナビゲートすることを約束している。しかし、しばしば空間的、構造的、幾何学的な制御による画像の生成に不足する。このようなコントロールの統合は、単一の統一モデルにおいて様々な視覚条件に対応できるが、未対応の課題である。そこで我々は,単一フレームワーク内で多岐にわたる制御可能な条件と画像(c2i)タスクを統合するとともに,任意の言語プロンプトを許容する,新しい生成基盤モデルであるunicontrolを導入する。 unicontrolはピクセルレベルのpreciseイメージ生成を可能にする。視覚条件は主に生成された構造に影響を与え、言語はスタイルとコンテキストをガイドする。多様な視覚条件に対応する能力をユニコントロールするために、事前学習されたテキストから画像への拡散モデルを強化し、拡散モデルを変調するタスクアウェアハイパーネットを導入し、異なるc2iタスクに同時に適応できるようにする。 9つのユニークなC2Iタスクで訓練されたUniControlは、目に見えない視覚条件で、印象的なゼロショット生成能力を示す。実験の結果,ユニコントロールは,モデルサイズに匹敵するシングルタスク制御手法の性能をしばしば上回っていることがわかった。この制御の汎用性は、UniControlを制御可能な視覚生成の領域における重要な進歩と位置づけている。

関連論文リスト

Canvas-to-Image: Compositional Image Generation with Multimodal Controls [51.44122945214702]
Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
論文参考訳（メタデータ） (2025-11-26T18:59:56Z)
Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation [17.898556887669997]
多様な条件入力をサポートするUnified Image-to-image Generation (UniGen) フレームワークを提案する。 Condition Modulated Expert (CoMoE)モジュールは、視覚表現と条件モデリングのために意味的に類似したパッチ機能を集約する。また,背骨からのグローバルテキストレベル制御と条件分岐からのきめ細かい制御を効果的に相互作用できる動的ヘビ様接続機構WeaveNetを提案する。
論文参考訳（メタデータ） (2025-08-24T13:47:10Z)
DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。 DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。要素間の相互作用について、多要素間相互作用を正確に処理するInter-Element Controllerを導入する。
論文参考訳（メタデータ） (2025-02-20T18:01:02Z)
VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis [59.12590059101254]
本稿では,テキスト・トゥ・イメージ(T2I)合成における多目的視覚制御を可能にする生成AIエージェントVersaGenを提案する。我々は,凍結したT2Iモデルに適応器を訓練し,テキスト支配拡散プロセスに視覚情報を適応させる。
論文参考訳（メタデータ） (2024-12-16T09:32:23Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance [36.50036055679903]
最近の制御可能な生成手法は、補助モジュールを訓練することなく、テキスト・ツー・イメージ(T2I)拡散モデルにきめ細かい空間的および外観的制御をもたらす。この研究は、追加のトレーニングやガイダンスなしでT2I拡散制御構造と外観の単純なフレームワークであるCtrl-Xを提示する。
論文参考訳（メタデータ） (2024-06-11T17:59:01Z)
OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文参考訳（メタデータ） (2024-06-09T18:03:47Z)
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文参考訳（メタデータ） (2024-05-08T06:09:11Z)
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文参考訳（メタデータ） (2023-12-12T18:59:14Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。