Fugu-MT 論文翻訳(概要): Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models

論文の概要: Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2305.16322v3
Date: Sun, 29 Oct 2023 15:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 22:02:51.622013
Title: Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
Title（参考訳）: Uni-ControlNet:テキスト間拡散モデルへのオールインワン制御
Authors: Shihao Zhao and Dongdong Chen and Yen-Chun Chen and Jianmin Bao and Shaozhe Hao and Lu Yuan and Kwan-Yee K. Wong
Abstract要約: ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
参考スコア（独自算出の注目度）: 82.19740045010435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-Image diffusion models have made tremendous progress over the past two years, enabling the generation of highly realistic images based on open-domain text descriptions. However, despite their success, text descriptions often struggle to adequately convey detailed controls, even when composed of long and complex texts. Moreover, recent studies have also shown that these models face challenges in understanding such complex texts and generating the corresponding images. Therefore, there is a growing need to enable more control modes beyond text description. In this paper, we introduce Uni-ControlNet, a unified framework that allows for the simultaneous utilization of different local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings) in a flexible and composable manner within one single model. Unlike existing methods, Uni-ControlNet only requires the fine-tuning of two additional adapters upon frozen pre-trained text-to-image diffusion models, eliminating the huge cost of training from scratch. Moreover, thanks to some dedicated adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2) of adapters, regardless of the number of local or global controls used. This not only reduces the fine-tuning costs and model size, making it more suitable for real-world deployment, but also facilitate composability of different conditions. Through both quantitative and qualitative comparisons, Uni-ControlNet demonstrates its superiority over existing methods in terms of controllability, generation quality and composability. Code is available at \url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}.
Abstract（参考訳）: テキスト間拡散モデルは過去2年間に大きく進歩し、オープンドメインのテキスト記述に基づく非常にリアルな画像の生成を可能にした。しかし、その成功にもかかわらず、テキスト記述は長く複雑なテキストであっても、詳細な制御を適切に伝えるのに苦労することが多い。さらに、近年の研究では、これらのモデルがこのような複雑なテキストを理解し、対応する画像を生成する上での課題に直面していることも示されている。そのため、テキスト記述以上の制御モードを有効にする必要性が増している。本稿では,Uni-ControlNetについて紹介する。このフレームワークは,複数のローカルコントロール(エッジマップ,深度マップ,セグメンテーションマスクなど)とグローバルコントロール(CLIPイメージ埋め込みなど)を,単一のモデル内で柔軟かつ構成可能な方法で同時利用可能にする。既存の方法とは異なり、Uni-ControlNetでは、凍結訓練済みのテキスト-画像拡散モデルに2つの追加アダプタを微調整するだけで、トレーニングの膨大なコストをゼロから排除できる。さらに、いくつかの専用のアダプタ設計のおかげで、uni-controlnetは使用するローカルまたはグローバルコントロールの数に関係なく、アダプタの一定数(つまり2つ)しか必要としない。これにより、微調整コストとモデルサイズが削減され、現実のデプロイメントにより適するだけでなく、異なる条件のコンポーザビリティも向上する。定量的および質的な比較を通じて、Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存の方法よりも優れていることを示す。コードは \url{https://github.com/shihaozhaozsh/uni-controlnet} で入手できる。

関連論文リスト

Canvas-to-Image: Compositional Image Generation with Multimodal Controls [51.44122945214702]
Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
論文参考訳（メタデータ） (2025-11-26T18:59:56Z)
DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。 DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。要素間の相互作用について、多要素間相互作用を正確に処理するInter-Element Controllerを導入する。
論文参考訳（メタデータ） (2025-02-20T18:01:02Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文参考訳（メタデータ） (2024-08-23T11:48:29Z)
ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文参考訳（メタデータ） (2024-08-12T11:41:18Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文参考訳（メタデータ） (2024-06-09T18:03:47Z)
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文参考訳（メタデータ） (2024-05-08T06:09:11Z)
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文参考訳（メタデータ） (2023-05-18T17:41:34Z)
Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。 ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文参考訳（メタデータ） (2023-02-10T23:12:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。