論文の概要: Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2503.08120v1
- Date: Tue, 11 Mar 2025 07:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.609753
- Title: Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
- Title(参考訳): Uni$\textbf{F}^2$ace:Unified Multimodal Modelによるきめ細かい顔の理解と生成
- Authors: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li,
- Abstract要約: Uni$textbfF2$aceは、顔のきめ細かな理解と生成に特化した最初のUMMである。
一般的に、Uni$textbfF2$aceを自己構築された特別なデータセットでトレーニングします。
Uni$textbfF2$ace-130Kの実験は、Uni$textbfF2$aceが既存のUMMや生成モデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 8.150431616220772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) have emerged as a powerful paradigm in foundational computer vision research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily focuses on $\textbf{coarse}$ facial attribute understanding, with limited capacity to handle $\textbf{fine-grained}$ facial attributes and without addressing generation capabilities. To overcome these limitations, we propose Uni$\textbf{F}^2$ace, the first UMM tailored specifically for fine-grained face understanding and generation. In general, we train Uni$\textbf{F}^2$ace on a self-constructed, specialized dataset utilizing two mutually beneficial diffusion techniques and a two-level mixture-of-experts architecture. Specifically, we first build a large-scale facial dataset, Uni$\textbf{F}^2$ace-130K, which contains 130K image-text pairs with one million question-answering pairs that span a wide range of facial attributes. Second, we establish a theoretical connection between discrete diffusion score matching and masked generative models, optimizing both evidence lower bounds simultaneously, which significantly improves the model's ability to synthesize facial details. Finally, we introduce both token-level and sequence-level mixture-of-experts, enabling efficient fine-grained representation learning for both understanding and generation tasks. Extensive experiments on Uni$\textbf{F}^2$ace-130K demonstrate that Uni$\textbf{F}^2$ace outperforms existing UMMs and generative models, achieving superior performance across both understanding and generation tasks.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は基礎的なコンピュータビジョン研究において強力なパラダイムとして登場し、画像理解と生成の両方において大きな可能性を示している。
しかし、顔領域における既存の研究は主に、$\textbf{coarse}$顔属性を理解することに焦点を当てており、$\textbf{fine-fine}$顔属性を扱う能力に制限があり、生成機能に対処することができない。
これらの制約を克服するために, 顔のきめ細かな理解と生成に適した最初のUMMである Uni$\textbf{F}^2$ace を提案する。
一般に、Uni$\textbf{F}^2$aceを、2つの相互に有用な拡散技術と2レベルの混合専門家アーキテクチャを用いて、自己構築された特別なデータセットで訓練する。
具体的には、まず大規模な顔データセットUni$\textbf{F}^2$ace-130Kを構築し、130Kのイメージテキストペアと、幅広い顔属性にまたがる100万の質問回答ペアを含む。
第2に、離散拡散スコアマッチングとマスク付き生成モデルとの理論的関係を確立し、両方の証拠を同時に下限に最適化することで、モデルが顔の詳細を合成する能力を大幅に改善する。
最後に,トークンレベルとシーケンスレベルの混合処理を導入し,理解タスクと生成タスクの両方において,効率的な粒度表現学習を実現する。
Uni$\textbf{F}^2$ace-130K での大規模な実験は、Uni$\textbf{F}^2$ace が既存の UMM と生成モデルより優れており、理解タスクと生成タスクの両方において優れた性能を達成することを示した。
関連論文リスト
- X-Fusion: Introducing New Modality to Frozen Large Language Models [82.3508830643655]
マルチモーダルタスクのための事前訓練された大規模言語モデルを拡張するフレームワークであるX-Fusionを提案する。
X-フュージョンは、モダリティ固有の重みを持つデュアルトウワー設計を採用し、LLMのパラメータを凍結させながら、理解と生成の両方に視覚特有の情報を統合する。
実験の結果,X-Fusionは画像・テキスト・テキスト・画像の両タスクにおいて,代替アーキテクチャを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-29T17:59:45Z) - Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis [5.795431510723275]
マルチモーダル顔状態解析のための包括的パイプラインを提案する。
本稿では,アクション・ユニット(AU)と感情認識に適した,新しいマルチレベル・マルチモーダル・フェイス・ファンデーション・モデル(MF2)を提案する。
実験は、AUと感情検出タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-14T16:00:57Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation [26.61175134316007]
テキスト・ツー・フォームド・モデル(T2I)は高品質な芸術作品や視覚コンテンツを生成することができる。
我々は、$textbfWorld Knowledge incorporation$bfIntext $textbfSemantic $textbfE$valuationのために特別に設計された最初のベンチマークである$textbfWISEを提案する。
論文 参考訳(メタデータ) (2025-03-10T12:47:53Z) - Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。
本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文 参考訳(メタデータ) (2025-01-05T12:46:31Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities [0.848210898747543]
金融時系列モデリングは市場行動の理解と予測に不可欠である。
従来のモデルは、非線形性、非定常性、高ノイズレベルのために複雑なパターンを捉えるのに苦労している。
NLPにおける大きな言語モデルの成功に触発されて、$textbfPLUTUS$, a $textbfP$re-trained $textbfL$argeを紹介します。
PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文 参考訳(メタデータ) (2024-05-25T15:21:59Z) - One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2 [0.7614628596146599]
本稿では、顔の編集、顔の動きと変形を同時にサポートするエンドツーエンドフレームワークと、映像生成のための顔認証制御を提案する。
高精細な顔映像を10242ドルで再現するために、StyleGAN2ジェネレータを使用します。
論文 参考訳(メタデータ) (2023-02-15T18:34:15Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。