論文の概要: Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2503.08120v2
- Date: Wed, 26 Mar 2025 02:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:10.035376
- Title: Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
- Title(参考訳): Uni$\textbf{F}^2$ace:Unified Multimodal Modelによるきめ細かい顔の理解と生成
- Authors: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li,
- Abstract要約: Uni$textbfF2$aceは、顔のきめ細かな理解と生成に特化した最初のUMMである。
一般的に、Uni$textbfF2$aceを自己構築された特別なデータセットでトレーニングします。
Uni$textbfF2$ace-130Kの実験は、Uni$textbfF2$aceが既存のUMMや生成モデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 8.150431616220772
- License:
- Abstract: Unified multimodal models (UMMs) have emerged as a powerful paradigm in foundational computer vision research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily focuses on $\textbf{coarse}$ facial attribute understanding, with limited capacity to handle $\textbf{fine-grained}$ facial attributes and without addressing generation capabilities. To overcome these limitations, we propose Uni$\textbf{F}^2$ace, the first UMM tailored specifically for fine-grained face understanding and generation. In general, we train Uni$\textbf{F}^2$ace on a self-constructed, specialized dataset utilizing two mutually beneficial diffusion techniques and a two-level mixture-of-experts architecture. Specifically, we first build a large-scale facial dataset, Uni$\textbf{F}^2$ace-130K, which contains 130K image-text pairs with one million question-answering pairs that span a wide range of facial attributes. Second, we establish a theoretical connection between discrete diffusion score matching and masked generative models, optimizing both evidence lower bounds simultaneously, which significantly improves the model's ability to synthesize facial details. Finally, we introduce both token-level and sequence-level mixture-of-experts, enabling efficient fine-grained representation learning for both understanding and generation tasks. Extensive experiments on Uni$\textbf{F}^2$ace-130K demonstrate that Uni$\textbf{F}^2$ace outperforms existing UMMs and generative models, achieving superior performance across both understanding and generation tasks.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は基礎的なコンピュータビジョン研究において強力なパラダイムとして登場し、画像理解と生成の両方において大きな可能性を示している。
しかし、顔領域における既存の研究は主に、$\textbf{coarse}$顔属性を理解することに焦点を当てており、$\textbf{fine-fine}$顔属性を扱う能力に制限があり、生成機能に対処することができない。
これらの制約を克服するために, 顔のきめ細かな理解と生成に適した最初のUMMである Uni$\textbf{F}^2$ace を提案する。
一般に、Uni$\textbf{F}^2$aceを、2つの相互に有用な拡散技術と2レベルの混合専門家アーキテクチャを用いて、自己構築された特別なデータセットで訓練する。
具体的には、まず大規模な顔データセットUni$\textbf{F}^2$ace-130Kを構築し、130Kのイメージテキストペアと、幅広い顔属性にまたがる100万の質問回答ペアを含む。
第2に、離散拡散スコアマッチングとマスク付き生成モデルとの理論的関係を確立し、両方の証拠を同時に下限に最適化することで、モデルが顔の詳細を合成する能力を大幅に改善する。
最後に,トークンレベルとシーケンスレベルの混合処理を導入し,理解タスクと生成タスクの両方において,効率的な粒度表現学習を実現する。
Uni$\textbf{F}^2$ace-130K での大規模な実験は、Uni$\textbf{F}^2$ace が既存の UMM と生成モデルより優れており、理解タスクと生成タスクの両方において優れた性能を達成することを示した。
関連論文リスト
- Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。
本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文 参考訳(メタデータ) (2025-01-05T12:46:31Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities [0.848210898747543]
金融時系列モデリングは市場行動の理解と予測に不可欠である。
従来のモデルは、非線形性、非定常性、高ノイズレベルのために複雑なパターンを捉えるのに苦労している。
NLPにおける大きな言語モデルの成功に触発されて、$textbfPLUTUS$, a $textbfP$re-trained $textbfL$argeを紹介します。
PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2 [0.7614628596146599]
本稿では、顔の編集、顔の動きと変形を同時にサポートするエンドツーエンドフレームワークと、映像生成のための顔認証制御を提案する。
高精細な顔映像を10242ドルで再現するために、StyleGAN2ジェネレータを使用します。
論文 参考訳(メタデータ) (2023-02-15T18:34:15Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。