論文の概要: OminiControl: Minimal and Universal Control for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2411.15098v5
- Date: Tue, 11 Mar 2025 10:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:03.961604
- Title: OminiControl: Minimal and Universal Control for Diffusion Transformer
- Title(参考訳): OminiControl:拡散変圧器の最小・普遍制御
- Authors: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang,
- Abstract要約: 我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
- 参考スコア(独自算出の注目度): 68.3243031301164
- License:
- Abstract: We present OminiControl, a novel approach that rethinks how image conditions are integrated into Diffusion Transformer (DiT) architectures. Current image conditioning methods either introduce substantial parameter overhead or handle only specific control tasks effectively, limiting their practical versatility. OminiControl addresses these limitations through three key innovations: (1) a minimal architectural design that leverages the DiT's own VAE encoder and transformer blocks, requiring just 0.1% additional parameters; (2) a unified sequence processing strategy that combines condition tokens with image tokens for flexible token interactions; and (3) a dynamic position encoding mechanism that adapts to both spatially-aligned and non-aligned control tasks. Our extensive experiments show that this streamlined approach not only matches but surpasses the performance of specialized methods across multiple conditioning tasks. To overcome data limitations in subject-driven generation, we also introduce Subjects200K, a large-scale dataset of identity-consistent image pairs synthesized using DiT models themselves. This work demonstrates that effective image control can be achieved without architectural complexity, opening new possibilities for efficient and versatile image generation systems.
- Abstract(参考訳): 我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
現在のイメージコンディショニング手法は、かなりのパラメータのオーバーヘッドを導入するか、特定の制御タスクのみを効果的に処理し、実用性を制限する。
OminiControlは、(1)DiT独自のVAEエンコーダとトランスフォーマーブロックを利用する最小限のアーキテクチャ設計、(0.1%の追加パラメータを必要とする)条件トークンとフレキシブルなトークンインタラクションのための画像トークンを組み合わせた統合シーケンス処理戦略、(3)空間的に整列された制御タスクと非整列制御タスクの両方に適応する動的位置符号化機構である。
広範にわたる実験により、この合理化アプローチは、一致しただけでなく、複数の条件付きタスクにまたがる特殊手法の性能を超越していることが示された。
また、対象駆動生成におけるデータ制限を克服するため、DiTモデル自身で合成したID一貫性画像ペアの大規模データセットであるSubjects200Kを導入する。
この研究は、効率的な画像制御をアーキテクチャの複雑さを伴わずに実現できることを示し、効率的で汎用的な画像生成システムに新たな可能性を開く。
関連論文リスト
- MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation [20.96801850521772]
MakeAnythingは拡散トランスフォーマー(DIT)に基づくフレームワークで、細調整を利用して、一貫した手続きシーケンスを生成するためにDITのコンテキスト内機能を活性化する。
また、画像生成のための非対称低ランク適応(LoRA)を導入し、デコーダ層を適応的に調整しながらパラメータを凍結することで、タスク固有性能を一般化する。
論文 参考訳(メタデータ) (2025-02-03T17:55:30Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。