論文の概要: Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
- arxiv url: http://arxiv.org/abs/2509.00428v1
- Date: Sat, 30 Aug 2025 09:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.228479
- Title: Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
- Title(参考訳): 制御可能な顔生成のための拡散変圧器を用いたグローバル・ローカルエキスパートの混在
- Authors: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing,
- Abstract要約: Face-MoGLEはセマンティック・デカップリング・ラテント・モデリングの新しいフレームワークである。
高品質で制御可能な顔生成を提供し、生成モデリングやセキュリティアプリケーションに強い可能性を秘めている。
- 参考スコア(独自算出の注目度): 37.40162325131809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.
- Abstract(参考訳): 制御可能な顔生成は、セマンティック・コントロール可能性とフォトリアリズムの間の複雑なバランスが要求されるため、生成モデリングにおいて重要な課題となる。
既存のアプローチでは、生成パイプラインからのセマンティックコントロールの分離に苦労する一方で、専門的な専門化のレンズを通じて拡散変換器(DiT)のアーキテクチャの可能性を再考する。
本稿では,(1)マスク条件付き空間因子化による意味的非結合ラテントモデリング,(2)細粒度制御のための全体構造と地域レベルのセマンティクスを捉えるグローバル・ローカル専門家の混合,(3)拡散ステップや空間位置で進化する時間依存係数を生成する動的ゲーティングネットワークを提案する。
Face-MoGLEは、高品質で制御可能な顔生成のための強力で柔軟なソリューションを提供する。
広汎な実験は、マルチモーダルおよびモノモーダルな顔生成設定におけるその効果と頑健なゼロショット一般化能力を示す。
プロジェクトページはhttps://github.com/XavierJiezou/Face-MoGLEで公開されている。
関連論文リスト
- JCo-MVTON: Jointly Controllable Multi-Modal Diffusion Transformer for Mask-Free Virtual Try-on [15.59886380067986]
JCo-MVTONは、拡散に基づく画像生成とマルチモーダル条件融合を統合することで制限を克服する新しいフレームワークである。
DressCodeなどの公開ベンチマークで最先端のパフォーマンスを実現し、測定値と人的評価の両方において、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-25T02:43:57Z) - ExpertGen: Training-Free Expert Guidance for Controllable Text-to-Face Generation [49.294779074232686]
ExpertGenはトレーニング不要のフレームワークで、トレーニング済みのエキスパートモデルを活用して、細かいコントロールで生成をガイドする。
我々は、専門家モデルが高い精度で生成過程を導出できることを定性的かつ定量的に示す。
論文 参考訳(メタデータ) (2025-05-22T20:09:21Z) - LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention [4.0810988694972385]
本稿では,顔偽造検出のための視覚変換器であるLayer-Aware Mask Modulation Vision Transformer (LAMM-ViT)を紹介する。
LAMM-ViTはリージョンガイド型マルチヘッドアテンション(RG-MHA)とレイヤ対応マスク変調(LAMM)を各レイヤに統合する。
クロスモデル一般化テストでは、LAMM-ViT は優れた性能を示し、平均 ACC は94.09%、平均 AP は98.62% である。
論文 参考訳(メタデータ) (2025-05-12T16:42:19Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - Controllable Face Synthesis with Semantic Latent Diffusion Models [6.438244172631555]
本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。
提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
論文 参考訳(メタデータ) (2024-03-19T14:02:13Z) - Multimodal-driven Talking Face Generation via a Unified Diffusion-based
Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。
既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。
不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文 参考訳(メタデータ) (2023-05-04T07:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。