論文の概要: Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation
- arxiv url: http://arxiv.org/abs/2511.12631v1
- Date: Sun, 16 Nov 2025 14:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.416573
- Title: Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation
- Title(参考訳): 多変量拡散変換器による高精細マスク-テキスト協調顔画像生成
- Authors: Yushe Cao, Dianxi Shi, Xing Fu, Xuechao Zou, Haikuo Peng, Xueqi Li, Chun Yu, Junliang Xing,
- Abstract要約: MDiTFaceは、セマンティックマスクとテキスト入力を処理するために統一トークン化戦略を利用する、カスタマイズされた拡散トランスフォーマーフレームワークである。
大規模な実験により、MDiTFaceは顔の忠実度と条件整合性の両方において、競合する他の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 33.45651294176388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant progress has been achieved in multimodal facial generation using semantic masks and textual descriptions, conventional feature fusion approaches often fail to enable effective cross-modal interactions, thereby leading to suboptimal generation outcomes. To address this challenge, we introduce MDiTFace--a customized diffusion transformer framework that employs a unified tokenization strategy to process semantic mask and text inputs, eliminating discrepancies between heterogeneous modality representations. The framework facilitates comprehensive multimodal feature interaction through stacked, newly designed multivariate transformer blocks that process all conditions synchronously. Additionally, we design a novel decoupled attention mechanism by dissociating implicit dependencies between mask tokens and temporal embeddings. This mechanism segregates internal computations into dynamic and static pathways, enabling caching and reuse of features computed in static pathways after initial calculation, thereby reducing additional computational overhead introduced by mask condition by over 94% while maintaining performance. Extensive experiments demonstrate that MDiTFace significantly outperforms other competing methods in terms of both facial fidelity and conditional consistency.
- Abstract(参考訳): セマンティックマスクとテキスト記述を用いたマルチモーダル顔生成において顕著な進歩が達成されているが、従来の特徴融合アプローチは効果的なモーダル間相互作用の実現に失敗し、その結果、最適以下の生成結果をもたらすことがしばしばある。
この課題に対処するために, セマンティックマスクとテキスト入力を処理するための統一トークン化戦略を用いて, 不均一なモダリティ表現の相違を解消するMDiTFaceを導入する。
このフレームワークは、すべての条件を同期的に処理するスタック化された、新しく設計された多変量変圧器ブロックを通じて、包括的なマルチモーダル機能相互作用を促進する。
さらに,マスクトークンと時間埋め込み間の暗黙的依存関係を解離することで,新たな非結合型アテンション機構を設計する。
この機構は内部計算を動的および静的な経路に分離し、初期計算後に静的経路で計算された機能のキャッシュと再利用を可能にし、性能を維持しながらマスク条件によって導入された計算オーバーヘッドを94%以上削減する。
大規模な実験により、MDiTFaceは顔の忠実度と条件整合性の両方において、競合する他の手法よりも大幅に優れていた。
関連論文リスト
- InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions [66.45467539731288]
マルチモーダル表現において、モダリティ間の相乗的相互作用は相補的な情報を提供し、ユニークな結果を生み出す。
既存の手法は、シナジスティックな情報の完全なスペクトルを捉えるのに苦労し、そのような相互作用が重要となるタスクにおいて、最適以下のパフォーマンスをもたらす。
Infinite Masking 戦略によって相乗的情報を強化するために設計された対照的な相乗的情報抽出手法である InfMasking を紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:31:59Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition [4.151073288078749]
動的表情認識(DFER)は,非言語コミュニケーションによる心理的意図の理解を促進する。
既存の手法では、バックグラウンドノイズや冗長なセマンティクスといった無関係な情報を管理するのに苦労し、効率と有効性の両方に影響を及ぼす。
そこで本稿では,DFERのための新しい教師付き仮面自動エンコーダネットワーク,すなわちAdaToskを提案する。
論文 参考訳(メタデータ) (2025-02-28T12:45:08Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。