Fugu-MT 論文翻訳(概要): MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

論文の概要: MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

arxiv url: http://arxiv.org/abs/2603.29029v1
Date: Mon, 30 Mar 2026 21:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:02.878908
Title: MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation
Title（参考訳）: MMFace-DiT:高忠実多モード顔生成用デュアルストリーム拡散変換器
Authors: Bharath Krishnamurthy, Ajita Rattani,
Abstract要約: 相乗的マルチモーダル顔合成のための統合デュアルストリーム拡散変換器MMFace-DiTを導入する。その中核的な特徴は、空間(マスク/スケッチ)と意味(テキスト)トークンを並列に処理するデュアルストリームトランスフォーマーブロックにある。 MMFace-DiTは、6つの最先端マルチモーダル顔生成モデルに対して、視覚的忠実度を40%向上させ、迅速なアライメントを実現する。
参考スコア（独自算出の注目度）: 2.5925656171325127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/
Abstract（参考訳）: 近年のマルチモーダルフェース生成モデルは,分割マスクやスケッチ,エッジマップなどの空間的事前条件をテキストベースで拡張することで,テキスト間拡散モデルの空間的制御限界に対処している。このマルチモーダル融合は、高レベルの意味的意図と低レベルの構造的レイアウトの両方に整合した制御可能な合成を可能にする。しかし、既存のほとんどのアプローチは、補助的な制御モジュールを追加したり、別々のユニモーダルネットワークを縫い合わせることで、トレーニング済みのテキスト・ツー・イメージパイプラインを拡張している。これらのアドホック設計は、アーキテクチャ上の制約、重複パラメータを継承し、しばしば矛盾するモダリティや不一致な潜在空間の下で失敗し、意味領域と空間領域をまたいだ相乗的融合を行う能力を制限する。本稿では, 相乗的多モード顔合成のために設計した二ストリーム拡散変換器MMFace-DiTを紹介する。その中核的な特徴は、空間(マスク/スケッチ)と意味(テキスト)トークンを並列に処理するデュアルストリームトランスフォーマーブロックにある。この設計は、モーダルな支配を防ぎ、制御可能な顔生成のための前例のない空間的セマンティックな一貫性を達成するために、テキストと構造的先行の両方に強く固執することを保証する。さらに、新しいModality Embedderにより、単一の凝集モデルが、再学習することなく、様々な空間条件に動的に適応することができる。 MMFace-DiTは、視覚的忠実度を40%向上し、6つの最先端マルチモーダル顔生成モデルに迅速なアライメントを実現し、エンドツーエンド制御可能な生成モデルのためのフレキシブルな新しいパラダイムを確立する。コードとデータセットはプロジェクトのページで公開されています。

関連論文リスト

StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文参考訳（メタデータ） (2026-01-12T15:41:27Z)
Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2026-01-07T16:21:19Z)
Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation [37.40162325131809]
Face-MoGLEはセマンティック・デカップリング・ラテント・モデリングの新しいフレームワークである。高品質で制御可能な顔生成を提供し、生成モデリングやセキュリティアプリケーションに強い可能性を秘めている。
論文参考訳（メタデータ） (2025-08-30T09:21:07Z)
CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step [37.449561703903505]
CoT-Diffは、ステップバイステップのCoTスタイルの推論をT2I世代にもたらすフレームワークである。 CoT-Diffは、MLLM(Multimodal Large Language Model)駆動の3Dレイアウト計画と拡散過程を密に統合する。 3次元Sceneベンチマーク実験により、CoT-Diffは空間アライメントと構成忠実度を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-07-06T16:17:32Z)
Polyline Path Masked Attention for Vision Transformer [52.90241449955985]
ビジョントランスフォーマー (ViT) はコンピュータビジョンにおいて大きな成功を収めた。 Mamba2は自然言語処理タスクにおいて大きな可能性を実証している。本稿では,VTの自己注意機構とMamba2の強化された構造化マスクを統合するポリリンパス仮面注意(PPMA)を提案する。
論文参考訳（メタデータ） (2025-06-19T00:52:30Z)
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。 SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文参考訳（メタデータ） (2023-08-20T04:09:12Z)
Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文参考訳（メタデータ） (2023-05-04T07:01:36Z)
AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文参考訳（メタデータ） (2023-04-19T16:18:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。