Fugu-MT 論文翻訳(概要): OmniControlNet: Dual-stage Integration for Conditional Image Generation

論文の概要: OmniControlNet: Dual-stage Integration for Conditional Image Generation

arxiv url: http://arxiv.org/abs/2406.05871v1
Date: Sun, 9 Jun 2024 18:03:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 17:38:03.679281
Title: OmniControlNet: Dual-stage Integration for Conditional Image Generation
Title（参考訳）: OmniControlNet: 条件付き画像生成のためのデュアルステージ統合
Authors: Yilin Wang, Haiyang Xu, Xiang Zhang, Zeyuan Chen, Zhizhou Sha, Zirui Wang, Zhuowen Tu,
Abstract要約: 我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
参考スコア（独自算出の注目度）: 61.1432268643639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We provide a two-way integration for the widely adopted ControlNet by integrating external condition generation algorithms into a single dense prediction method and incorporating its individually trained image generation processes into a single model. Despite its tremendous success, the ControlNet of a two-stage pipeline bears limitations in being not self-contained (e.g. calls the external condition generation algorithms) with a large model redundancy (separately trained models for different types of conditioning inputs). Our proposed OmniControlNet consolidates 1) the condition generation (e.g., HED edges, depth maps, user scribble, and animal pose) by a single multi-tasking dense prediction algorithm under the task embedding guidance and 2) the image generation process for different conditioning types under the textual embedding guidance. OmniControlNet achieves significantly reduced model complexity and redundancy while capable of producing images of comparable quality for conditioned text-to-image generation.
Abstract（参考訳）: 外部条件生成アルゴリズムを1つの高密度予測手法に統合し、個別に訓練された画像生成プロセスを1つのモデルに組み込むことにより、広く採用されているControlNetの双方向統合を提供する。その大きな成功にもかかわらず、2段階パイプラインのコントロールネットは、大きなモデル冗長性(異なるタイプの条件入力に対して個別に訓練されたモデル)で自己完結しない(例えば、外部条件生成アルゴリズムと呼ばれる)という制限を負っている。提案するOmniControlNetの統合 1)タスク埋め込み指導の下での1つのマルチタスク密度予測アルゴリズムによる条件生成(例えば、HEDエッジ、深度マップ、ユーザスクリブル、動物のポーズ) 2) テキスト埋め込み指導における条件の異なる画像生成過程について検討した。 OmniControlNetは、条件付きテキスト・画像生成に匹敵する品質の画像を生成すると同時に、モデルの複雑さと冗長性を著しく低減する。

関連論文リスト

MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-07-13T10:52:59Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。