論文の概要: OminiControl2: Efficient Conditioning for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2503.08280v1
- Date: Tue, 11 Mar 2025 10:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:37.114318
- Title: OminiControl2: Efficient Conditioning for Diffusion Transformers
- Title(参考訳): OminiControl2: 拡散変換器の効率的な条件付け
- Authors: Zhenxiong Tan, Qiaochu Xue, Xingyi Yang, Songhua Liu, Xinchao Wang,
- Abstract要約: 我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
- 参考スコア(独自算出の注目度): 68.3243031301164
- License:
- Abstract: Fine-grained control of text-to-image diffusion transformer models (DiT) remains a critical challenge for practical deployment. While recent advances such as OminiControl and others have enabled a controllable generation of diverse control signals, these methods face significant computational inefficiency when handling long conditional inputs. We present OminiControl2, an efficient framework that achieves efficient image-conditional image generation. OminiControl2 introduces two key innovations: (1) a dynamic compression strategy that streamlines conditional inputs by preserving only the most semantically relevant tokens during generation, and (2) a conditional feature reuse mechanism that computes condition token features only once and reuses them across denoising steps. These architectural improvements preserve the original framework's parameter efficiency and multi-modal versatility while dramatically reducing computational costs. Our experiments demonstrate that OminiControl2 reduces conditional processing overhead by over 90% compared to its predecessor, achieving an overall 5.9$\times$ speedup in multi-conditional generation scenarios. This efficiency enables the practical implementation of complex, multi-modal control for high-quality image synthesis with DiT models.
- Abstract(参考訳): テキスト・画像拡散変換モデル(DiT)のきめ細かい制御は、実用的展開において重要な課題である。
OminiControlなどの最近の進歩により、様々な制御信号の制御が可能になったが、長い条件入力を扱う場合、これらの手法は大きな計算不効率に直面している。
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。
OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
これらのアーキテクチャの改善は、計算コストを劇的に削減しつつ、元のフレームワークのパラメータ効率とマルチモーダルの汎用性を保っている。
実験により,OminiControl2は,条件付き処理のオーバヘッドを従来に比べて90%以上削減し,マルチ条件生成シナリオにおける全体的な5.9$\times$スピードアップを実現した。
この効率は、DiTモデルを用いた高品質な画像合成のための複雑なマルチモーダル制御の実践的な実装を可能にする。
関連論文リスト
- Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮率の異なる動的DiT推論フレームワークであるDiffRatio-MoDを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling [17.62612090885471]
マルチステージモデリングによる効率的な連続自己回帰画像生成(ECAR)について述べる。
解像度が上がるとトークンを生成し、同時に各ステージで画像をデノナイズする。
ECARはDiT Peebles & Xie [2023]に匹敵する画質を実現し、10$times$ FLOPsと5$times$のスピードアップを必要とし、256$times $256イメージを生成する。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。