論文の概要: OminiControl: Minimal and Universal Control for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2411.15098v5
- Date: Tue, 11 Mar 2025 10:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:11.783094
- Title: OminiControl: Minimal and Universal Control for Diffusion Transformer
- Title(参考訳): OminiControl:拡散変圧器の最小・普遍制御
- Authors: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang,
- Abstract要約: 我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
- 参考スコア(独自算出の注目度): 68.3243031301164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OminiControl, a novel approach that rethinks how image conditions are integrated into Diffusion Transformer (DiT) architectures. Current image conditioning methods either introduce substantial parameter overhead or handle only specific control tasks effectively, limiting their practical versatility. OminiControl addresses these limitations through three key innovations: (1) a minimal architectural design that leverages the DiT's own VAE encoder and transformer blocks, requiring just 0.1% additional parameters; (2) a unified sequence processing strategy that combines condition tokens with image tokens for flexible token interactions; and (3) a dynamic position encoding mechanism that adapts to both spatially-aligned and non-aligned control tasks. Our extensive experiments show that this streamlined approach not only matches but surpasses the performance of specialized methods across multiple conditioning tasks. To overcome data limitations in subject-driven generation, we also introduce Subjects200K, a large-scale dataset of identity-consistent image pairs synthesized using DiT models themselves. This work demonstrates that effective image control can be achieved without architectural complexity, opening new possibilities for efficient and versatile image generation systems.
- Abstract(参考訳): 我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
現在のイメージコンディショニング手法は、かなりのパラメータのオーバーヘッドを導入するか、特定の制御タスクのみを効果的に処理し、実用性を制限する。
OminiControlは、(1)DiT独自のVAEエンコーダとトランスフォーマーブロックを利用する最小限のアーキテクチャ設計、(0.1%の追加パラメータを必要とする)条件トークンとフレキシブルなトークンインタラクションのための画像トークンを組み合わせた統合シーケンス処理戦略、(3)空間的に整列された制御タスクと非整列制御タスクの両方に適応する動的位置符号化機構である。
広範にわたる実験により、この合理化アプローチは、一致しただけでなく、複数の条件付きタスクにまたがる特殊手法の性能を超越していることが示された。
また、対象駆動生成におけるデータ制限を克服するため、DiTモデル自身で合成したID一貫性画像ペアの大規模データセットであるSubjects200Kを導入する。
この研究は、効率的な画像制御をアーキテクチャの複雑さを伴わずに実現できることを示し、効率的で汎用的な画像生成システムに新たな可能性を開く。
関連論文リスト
- Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文 参考訳(メタデータ) (2025-03-11T10:50:14Z) - EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer [15.879712910520801]
条件誘導拡散変換器を高効率かつ柔軟性で統一する新しいフレームワークであるEasyControlを提案する。
まず、軽量なCondition Injection LoRA Moduleを紹介します。
第2に,任意のアスペクト比とフレキシブルな解像度を持つ画像の生成を可能にするため,入力条件を固定解像度に標準化する位置認識訓練パラダイムを提案する。
第三に、条件生成タスクに適応したKVキャッシュ技術と組み合わせた因果注意機構を開発する。
論文 参考訳(メタデータ) (2025-03-10T08:07:17Z) - MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation [20.96801850521772]
MakeAnythingは拡散トランスフォーマー(DIT)に基づくフレームワークで、細調整を利用して、一貫した手続きシーケンスを生成するためにDITのコンテキスト内機能を活性化する。
また、画像生成のための非対称低ランク適応(LoRA)を導入し、デコーダ層を適応的に調整しながらパラメータを凍結することで、タスク固有性能を一般化する。
論文 参考訳(メタデータ) (2025-02-03T17:55:30Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。