論文の概要: UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2503.09277v1
- Date: Wed, 12 Mar 2025 11:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.717876
- Title: UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer
- Title(参考訳): UniCombine:Diffusion Transformerと統合マルチコンディションの組み合わせ
- Authors: Haoxuan Wang, Jinlong Peng, Qingdong He, Hao Yang, Ying Jin, Jiafu Wu, Xiaobin Hu, Yanjie Pan, Zhenye Gan, Mingmin Chi, Bo Peng, Yabiao Wang,
- Abstract要約: 条件の組み合わせを扱える多条件制御可能な多条件生成フレームワークを提案する。
具体的には、新しいMMDiTアテンション機構を導入し、トレーニング可能なLoRAモジュールを組み込む。
また,マルチ条件生成タスク用に設計された最初のデータセットであるSubjectSpatial200Kを構築するための新しいパイプラインを提案する。
- 参考スコア(独自算出の注目度): 24.159791066104358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of diffusion models in image generation, the demand for more powerful and flexible controllable frameworks is increasing. Although existing methods can guide generation beyond text prompts, the challenge of effectively combining multiple conditional inputs while maintaining consistency with all of them remains unsolved. To address this, we introduce UniCombine, a DiT-based multi-conditional controllable generative framework capable of handling any combination of conditions, including but not limited to text prompts, spatial maps, and subject images. Specifically, we introduce a novel Conditional MMDiT Attention mechanism and incorporate a trainable LoRA module to build both the training-free and training-based versions. Additionally, we propose a new pipeline to construct SubjectSpatial200K, the first dataset designed for multi-conditional generative tasks covering both the subject-driven and spatially-aligned conditions. Extensive experimental results on multi-conditional generation demonstrate the outstanding universality and powerful capability of our approach with state-of-the-art performance.
- Abstract(参考訳): 画像生成における拡散モデルの急速な発展に伴い、より強力で柔軟な制御可能なフレームワークの需要が高まっている。
既存の手法は、テキストプロンプトを超えて生成を導くことができるが、複数の条件入力を効果的に組み合わせながら、これらすべてとの整合性を維持するという課題は未解決のままである。
そこで本研究では,テキストプロンプトや空間地図,対象画像など,条件の組み合わせを扱える,DiTベースの多条件制御可能な生成フレームワークUniCombineを紹介する。
具体的には、新しい条件付きMMDiTアテンション機構を導入し、トレーニングフリー版とトレーニングベース版の両方を構築するためにトレーニング可能なLoRAモジュールを組み込む。
さらに,主観的および空間的整合性の両方をカバーする多条件生成タスクのための最初のデータセットであるSubjectSpatial200Kを構築するための新しいパイプラインを提案する。
マルチコンディショナル・ジェネレーションに関する大規模な実験結果から, 最先端の性能を持つアプローチの卓越した普遍性と強力な能力が示された。
関連論文リスト
- Less-to-More Generalization: Unlocking More Controllability by In-Context Generation [4.832184187988317]
本稿では,主観駆動型生成問題に対処するための高一貫性データ合成パイプラインを提案する。
このパイプラインは、拡散変換器の本質的なインコンテキスト生成機能を活用し、高一貫性のマルチオブジェクトペアデータを生成する。
また、プログレッシブなクロスモーダルアライメントとユニバーサルな回転位置埋め込みからなるUNOも導入する。
論文 参考訳(メタデータ) (2025-04-02T22:20:21Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文 参考訳(メタデータ) (2025-03-26T15:37:17Z) - FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.776430879317765]
FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。
実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文 参考訳(メタデータ) (2025-03-25T17:59:06Z) - EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer [15.879712910520801]
条件誘導拡散変換器を高効率かつ柔軟性で統一する新しいフレームワークであるEasyControlを提案する。
まず、軽量なCondition Injection LoRA Moduleを紹介します。
第2に,任意のアスペクト比とフレキシブルな解像度を持つ画像の生成を可能にするため,入力条件を固定解像度に標準化する位置認識訓練パラダイムを提案する。
第三に、条件生成タスクに適応したKVキャッシュ技術と組み合わせた因果注意機構を開発する。
論文 参考訳(メタデータ) (2025-03-10T08:07:17Z) - MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [38.517814177255765]
画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。
本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts [48.214475133206385]
EMMAは、最先端のテキスト・トゥ・イメージ(T2I)拡散モデル ELLA 上に構築されたマルチモーダルプロンプトを受け入れる新しい画像生成モデルである。
元のT2I拡散モデルにおける全てのパラメータを凍結し、いくつかの追加層のみを調整することにより、事前学習されたT2I拡散モデルが秘かにマルチモーダルプロンプトを受け入れることができるという興味深い発見が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T14:26:43Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。