論文の概要: UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model
- arxiv url: http://arxiv.org/abs/2503.08120v4
- Date: Mon, 29 Sep 2025 17:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.94108
- Title: UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model
- Title(参考訳): UniF$^2$ace: 統一されたきめ細かい顔の理解と生成モデル
- Authors: Junzhe Li, Sifan Zhou, Liya Guo, Xuerui Qiu, Linrui Xu, Delin Qu, Tingting Long, Chun Fan, Ming Li, Hehe Fan, Jun Liu, Shuicheng Yan,
- Abstract要約: 本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
- 参考スコア(独自算出の注目度): 62.66515621965686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) have emerged as a powerful paradigm in fundamental cross-modality research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily faces two challenges: $\textbf{(1)}$ $\textbf{fragmentation development}$, with existing methods failing to unify understanding and generation into a single one, hindering the way to artificial general intelligence. $\textbf{(2) lack of fine-grained facial attributes}$, which are crucial for high-fidelity applications. To handle those issues, we propose $\textbf{UniF$^2$ace}$, $\textit{the first UMM specifically tailored for fine-grained face understanding and generation}$. $\textbf{First}$, we introduce a novel theoretical framework with a Dual Discrete Diffusion (D3Diff) loss, unifying masked generative models with discrete score matching diffusion and leading to a more precise approximation of the negative log-likelihood. Moreover, this D3Diff significantly enhances the model's ability to synthesize high-fidelity facial details aligned with text input. $\textbf{Second}$, we propose a multi-level grouped Mixture-of-Experts architecture, adaptively incorporating the semantic and identity facial embeddings to complement the attribute forgotten phenomenon in representation evolvement. $\textbf{Finally}$, to this end, we construct UniF$^2$aceD-1M, a large-scale dataset comprising 130K fine-grained image-caption pairs and 1M visual question-answering pairs, spanning a much wider range of facial attributes than existing datasets. Extensive experiments demonstrate that UniF$^2$ace outperforms existing models with a similar scale in both understanding and generation tasks, with 7.1\% higher Desc-GPT and 6.6\% higher VQA-score, respectively.
- Abstract(参考訳): 統一マルチモーダルモデル (UMM) は、画像理解と生成の両方において有意義な可能性を示す基礎的相互モダリティ研究において、強力なパラダイムとして登場した。
しかし、顔領域における既存の研究は、主に2つの課題に直面している。$\textbf{(1)}$ $\textbf{fragmentation Development}$ 既存の手法では、理解と生成を一元化できず、人工知能への道を妨げている。
$\textbf{(2) にはきめ細かい顔属性がない。
これらの問題に対処するために、$\textbf{UniF$^2$ace}$, $\textit{the first UMM suitableed for fine-fine face understanding and generation}$を提案する。
$\textbf{First}$ では、二重離散拡散(D3Diff)損失を伴う新しい理論フレームワークを導入し、離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一し、負の対数類似度をより正確に近似する。
さらに、このD3Diffは、テキスト入力に一致した高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
表現進化における属性を忘れた現象を補うために,セマンティックとアイデンティティの顔の埋め込みを適応的に組み込んだマルチレベルなMixture-of-Expertsアーキテクチャを提案する。
この目的のために、我々はUniF$^2$aceD-1Mという、130Kのきめ細かい画像キャプチャ対と100万の視覚的質問応答対からなる大規模なデータセットを構築し、既存のデータセットよりもはるかに広い範囲の顔属性にまたがる。
UniF$^2$aceは、理解タスクと生成タスクの両方において、それぞれDesc-GPTが7.1\%、VQA-スコアが6.6\%という、類似のスケールで、既存のモデルより優れていることを示した。
関連論文リスト
- Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Bound by semanticity: universal laws governing the generalization-identification tradeoff [8.437463955457423]
有限分解能の類似性は、単なる玩具・模型の人工物ではなく、基本的な創発的な情報制約であることを示す。
これらの結果は、一般化識別トレードオフの正確な理論を提供し、意味論的解決がディープネットワークや脳の表現能力をどのように形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-06-01T15:56:26Z) - Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction [16.855296683335308]
Uni-Instructは、$f$-divergenceファミリーの拡散展開理論によって動機付けられている。
CIFAR10 生成ベンチマークでは、Uni-Instruct は無条件生成のための textbfemph1.46 のレコード破りの Frechet Inception Distance (FID) 値を達成する。
ImageNet-$64times 64$ Generationベンチマークでは、Uni-Instruct が textbfemph1.02 の SoTA 1ステップ生成 FID を新たに達成した。
論文 参考訳(メタデータ) (2025-05-27T05:55:45Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - X-Fusion: Introducing New Modality to Frozen Large Language Models [82.3508830643655]
マルチモーダルタスクのための事前訓練された大規模言語モデルを拡張するフレームワークであるX-Fusionを提案する。
X-フュージョンは、モダリティ固有の重みを持つデュアルトウワー設計を採用し、LLMのパラメータを凍結させながら、理解と生成の両方に視覚特有の情報を統合する。
実験の結果,X-Fusionは画像・テキスト・テキスト・画像の両タスクにおいて,代替アーキテクチャを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-29T17:59:45Z) - Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis [5.795431510723275]
マルチモーダル顔状態解析のための包括的パイプラインを提案する。
本稿では,アクション・ユニット(AU)と感情認識に適した,新しいマルチレベル・マルチモーダル・フェイス・ファンデーション・モデル(MF2)を提案する。
実験は、AUと感情検出タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-14T16:00:57Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation [26.61175134316007]
テキスト・ツー・フォームド・モデル(T2I)は高品質な芸術作品や視覚コンテンツを生成することができる。
我々は、$textbfWorld Knowledge incorporation$bfIntext $textbfSemantic $textbfE$valuationのために特別に設計された最初のベンチマークである$textbfWISEを提案する。
論文 参考訳(メタデータ) (2025-03-10T12:47:53Z) - Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。
本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文 参考訳(メタデータ) (2025-01-05T12:46:31Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - PLUTUS: A Well Pre-trained Large Unified Transformer can Unveil Financial Time Series Regularities [0.848210898747543]
金融時系列モデリングは市場行動の理解と予測に不可欠である。
従来のモデルは、非線形性、非定常性、高ノイズレベルのために複雑なパターンを捉えるのに苦労している。
NLPにおける大きな言語モデルの成功に触発されて、$textbfPLUTUS$, a $textbfP$re-trained $textbfL$argeを紹介します。
PLUTUSは10億以上のパラメータを持つ最初のオープンソース、大規模、事前訓練された金融時系列モデルである。
論文 参考訳(メタデータ) (2024-08-19T15:59:46Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation [78.77004913030285]
M$3$GPTは、理解と生成のための先進的な$textbfM$ultimodal, $textbfM$ultitaskフレームワークである。
我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダルな条件信号に対して離散ベクトル量子化を用い、大きな言語モデルへのシームレスな統合を可能にした。
M$3$GPTは、様々な動作関連タスク間の接続とシナジーをモデル化することを学ぶ。
論文 参考訳(メタデータ) (2024-05-25T15:21:59Z) - One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2 [0.7614628596146599]
本稿では、顔の編集、顔の動きと変形を同時にサポートするエンドツーエンドフレームワークと、映像生成のための顔認証制御を提案する。
高精細な顔映像を10242ドルで再現するために、StyleGAN2ジェネレータを使用します。
論文 参考訳(メタデータ) (2023-02-15T18:34:15Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。