Fugu-MT 論文翻訳(概要): CCM: Adding Conditional Controls to Text-to-Image Consistency Models

論文の概要: CCM: Adding Conditional Controls to Text-to-Image Consistency Models

arxiv url: http://arxiv.org/abs/2312.06971v1
Date: Tue, 12 Dec 2023 04:16:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 17:22:56.210309
Title: CCM: Adding Conditional Controls to Text-to-Image Consistency Models
Title（参考訳）: CCM:テキスト間一貫性モデルに条件制御を追加する
Authors: Jie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha
Abstract要約: 本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
参考スコア（独自算出の注目度）: 89.75377958996305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Consistency Models (CMs) have showed a promise in creating visual content efficiently and with high quality. However, the way to add new conditional controls to the pretrained CMs has not been explored. In this technical report, we consider alternative strategies for adding ControlNet-like conditional control to CMs and present three significant findings. 1) ControlNet trained for diffusion models (DMs) can be directly applied to CMs for high-level semantic controls but struggles with low-level detail and realism control. 2) CMs serve as an independent class of generative models, based on which ControlNet can be trained from scratch using Consistency Training proposed by Song et al. 3) A lightweight adapter can be jointly optimized under multiple conditions through Consistency Training, allowing for the swift transfer of DMs-based ControlNet to CMs. We study these three solutions across various conditional controls, including edge, depth, human pose, low-resolution image and masked image with text-to-image latent consistency models.
Abstract（参考訳）: 一貫性モデル(cms)は、視覚的コンテンツの効率的かつ高品質作成に有望である。しかし、事前訓練されたCMに新しい条件制御を追加する方法は検討されていない。本報告では,cmsに制御ネットライクな条件付き制御を追加するための代替戦略を検討し,3つの重要な知見を示す。 1)拡散モデル(dms)用に訓練された制御ネットは、高レベル意味制御のために直接cmsに適用できるが、低レベル詳細とリアリズム制御に苦しむ。 2)CMは,Songらの提案した一貫性トレーニングを用いて,コントロールネットをゼロからトレーニング可能な生成モデルの独立したクラスとして機能する。 3) DM ベースの ControlNet をCM に高速に転送可能な軽量アダプタを,一貫性トレーニングを通じて複数条件で共同で最適化することができる。エッジ,奥行き,人間のポーズ,低解像度画像,マスキング画像の3つの条件付き制御を,テキストから画像への潜在一貫性モデルを用いて検討した。

関連論文リスト

DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [55.42794740244581]
マルチ条件画像生成のためのフレームワークであるDC(Decouple)-ControlNetを紹介する。 DC-ControlNetの背景にある基本的な考え方は、制御条件を分離し、グローバルな制御を階層的なシステムに変換することである。要素間の相互作用について、多要素間相互作用を正確に処理するInter-Element Controllerを導入する。
論文参考訳（メタデータ） (2025-02-20T18:01:02Z)
C3: Learning Congestion Controllers with Formal Certificates [14.750230453127413]
C3は、学習ループに正式な認証の概念を統合する、渋滞制御のための新しい学習フレームワークである。 C3トレーニングされたコントローラは、さまざまなネットワーク条件に対して、適応性と最悪のケースの信頼性を提供する。
論文参考訳（メタデータ） (2024-12-14T18:02:50Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback [20.910939141948123]
ControlNet++は、生成した画像と条件付き制御の間のピクセルレベルのサイクル一貫性を明示的に最適化することで、制御可能な生成を改善する新しいアプローチである。 ControlNetの11.1%のmIoU、13.4%のSSIM、7.6%のRMSE、それぞれセグメンテーションマスク、ラインアートエッジ、深さ条件の改善を実現している。
論文参考訳（メタデータ） (2024-04-11T17:59:09Z)
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition [41.92032568474062]
FreeControlは、制御可能なT2I生成のためのトレーニング不要のアプローチである。複数の条件、アーキテクチャ、チェックポイントを同時にサポートする。トレーニングベースのアプローチで、競争力のある合成品質を実現する。
論文参考訳（メタデータ） (2023-12-12T18:59:14Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。 CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-09-05T21:27:27Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文参考訳（メタデータ） (2020-03-19T15:04:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。