論文の概要: Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation
- arxiv url: http://arxiv.org/abs/2511.12631v1
- Date: Sun, 16 Nov 2025 14:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.416573
- Title: Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation
- Title(参考訳): 多変量拡散変換器による高精細マスク-テキスト協調顔画像生成
- Authors: Yushe Cao, Dianxi Shi, Xing Fu, Xuechao Zou, Haikuo Peng, Xueqi Li, Chun Yu, Junliang Xing,
- Abstract要約: MDiTFaceは、セマンティックマスクとテキスト入力を処理するために統一トークン化戦略を利用する、カスタマイズされた拡散トランスフォーマーフレームワークである。
大規模な実験により、MDiTFaceは顔の忠実度と条件整合性の両方において、競合する他の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 33.45651294176388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant progress has been achieved in multimodal facial generation using semantic masks and textual descriptions, conventional feature fusion approaches often fail to enable effective cross-modal interactions, thereby leading to suboptimal generation outcomes. To address this challenge, we introduce MDiTFace--a customized diffusion transformer framework that employs a unified tokenization strategy to process semantic mask and text inputs, eliminating discrepancies between heterogeneous modality representations. The framework facilitates comprehensive multimodal feature interaction through stacked, newly designed multivariate transformer blocks that process all conditions synchronously. Additionally, we design a novel decoupled attention mechanism by dissociating implicit dependencies between mask tokens and temporal embeddings. This mechanism segregates internal computations into dynamic and static pathways, enabling caching and reuse of features computed in static pathways after initial calculation, thereby reducing additional computational overhead introduced by mask condition by over 94% while maintaining performance. Extensive experiments demonstrate that MDiTFace significantly outperforms other competing methods in terms of both facial fidelity and conditional consistency.
- Abstract(参考訳): セマンティックマスクとテキスト記述を用いたマルチモーダル顔生成において顕著な進歩が達成されているが、従来の特徴融合アプローチは効果的なモーダル間相互作用の実現に失敗し、その結果、最適以下の生成結果をもたらすことがしばしばある。
この課題に対処するために, セマンティックマスクとテキスト入力を処理するための統一トークン化戦略を用いて, 不均一なモダリティ表現の相違を解消するMDiTFaceを導入する。
このフレームワークは、すべての条件を同期的に処理するスタック化された、新しく設計された多変量変圧器ブロックを通じて、包括的なマルチモーダル機能相互作用を促進する。
さらに,マスクトークンと時間埋め込み間の暗黙的依存関係を解離することで,新たな非結合型アテンション機構を設計する。
この機構は内部計算を動的および静的な経路に分離し、初期計算後に静的経路で計算された機能のキャッシュと再利用を可能にし、性能を維持しながらマスク条件によって導入された計算オーバーヘッドを94%以上削減する。
大規模な実験により、MDiTFaceは顔の忠実度と条件整合性の両方において、競合する他の手法よりも大幅に優れていた。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions [66.45467539731288]
マルチモーダル表現において、モダリティ間の相乗的相互作用は相補的な情報を提供し、ユニークな結果を生み出す。
既存の手法は、シナジスティックな情報の完全なスペクトルを捉えるのに苦労し、そのような相互作用が重要となるタスクにおいて、最適以下のパフォーマンスをもたらす。
Infinite Masking 戦略によって相乗的情報を強化するために設計された対照的な相乗的情報抽出手法である InfMasking を紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:31:59Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - JCo-MVTON: Jointly Controllable Multi-Modal Diffusion Transformer for Mask-Free Virtual Try-on [15.59886380067986]
JCo-MVTONは、拡散に基づく画像生成とマルチモーダル条件融合を統合することで制限を克服する新しいフレームワークである。
DressCodeなどの公開ベンチマークで最先端のパフォーマンスを実現し、測定値と人的評価の両方において、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-25T02:43:57Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition [4.151073288078749]
動的表情認識(DFER)は,非言語コミュニケーションによる心理的意図の理解を促進する。
既存の手法では、バックグラウンドノイズや冗長なセマンティクスといった無関係な情報を管理するのに苦労し、効率と有効性の両方に影響を及ぼす。
そこで本稿では,DFERのための新しい教師付き仮面自動エンコーダネットワーク,すなわちAdaToskを提案する。
論文 参考訳(メタデータ) (2025-02-28T12:45:08Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。