論文の概要: MAUGen: A Unified Diffusion Approach for Multi-Identity Facial Expression and AU Label Generation
- arxiv url: http://arxiv.org/abs/2602.00583v1
- Date: Sat, 31 Jan 2026 07:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.268953
- Title: MAUGen: A Unified Diffusion Approach for Multi-Identity Facial Expression and AU Label Generation
- Title(参考訳): MAUGen:多次元顔表情とAUラベル生成のための統一拡散アプローチ
- Authors: Xiangdong Li, Ye Lou, Ao Gao, Wei Zhang, Siyang Song,
- Abstract要約: 拡散に基づくマルチモーダル・フレームワークであるMAUGenを提案する。
本フレームワークでは、包括的AUアノテーションとアイデンティティのバリエーションを備えた大規模マルチモーダル合成データセットであるMIFA(Multi-Identity Facial Action)を導入する。
- 参考スコア(独自算出の注目度): 18.996319133901473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The lack of large-scale, demographically diverse face images with precise Action Unit (AU) occurrence and intensity annotations has long been recognized as a fundamental bottleneck in developing generalizable AU recognition systems. In this paper, we propose MAUGen, a diffusion-based multi-modal framework that jointly generates a large collection of photorealistic facial expressions and anatomically consistent AU labels, including both occurrence and intensity, conditioned on a single descriptive text prompt. Our MAUGen involves two key modules: (1) a Multi-modal Representation Learning (MRL) module that captures the relationships among the paired textual description, facial identity, expression image, and AU activations within a unified latent space; and (2) a Diffusion-based Image label Generator (DIG) that decodes the joint representation into aligned facial image-label pairs across diverse identities. Under this framework, we introduce Multi-Identity Facial Action (MIFA), a large-scale multimodal synthetic dataset featuring comprehensive AU annotations and identity variations. Extensive experiments demonstrate that MAUGen outperforms existing methods in synthesizing photorealistic, demographically diverse facial images along with semantically aligned AU labels.
- Abstract(参考訳): 高精度なアクションユニット(AU)と強度アノテーションを備えた大規模で人口動態的に多様な顔画像の欠如は、一般化可能なAU認識システムを開発する上での根本的なボトルネックとして長年認識されてきた。
本稿では,拡散型マルチモーダルフレームワークであるMAUGenを提案する。このフレームワークは,1つの記述的テキストプロンプトに条件付けされた,多量のフォトリアリスティックな表情と解剖学的に一貫したAUラベルを共同生成する。
我々のMAUGenは2つの重要なモジュールを包含している: (1) テキスト記述、顔のアイデンティティ、表情画像、およびAUアクティベーション間の関係を統一された潜在空間内でキャプチャするマルチモーダル表現学習(MRL)モジュール、(2) 拡散に基づく画像ラベル生成(DIG)。
本フレームワークでは、包括的AUアノテーションとアイデンティティのバリエーションを備えた大規模マルチモーダル合成データセットであるMIFA(Multi-Identity Facial Action)を導入する。
大規模な実験により、MAUGenは、セマンティックに整列したAUラベルとともに、フォトリアリスティックで人口動態的に多様な顔画像を合成する既存の手法よりも優れていることが示された。
関連論文リスト
- Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。