論文の概要: PixelSmile: Toward Fine-Grained Facial Expression Editing
- arxiv url: http://arxiv.org/abs/2603.25728v1
- Date: Thu, 26 Mar 2026 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.424925
- Title: PixelSmile: Toward Fine-Grained Facial Expression Editing
- Title(参考訳): PixelSmile: きめ細かい表情編集を目指して
- Authors: Jiabin Hua, Hengyuan Xu, Aojie Li, Wei Cheng, Gang Yu, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: PixelSmileは、完全に対称なジョイントトレーニングを通じて表現セマンティクスをアンタングルする拡散フレームワークである。
実験により、PixelSmileは優れた絡み合いと堅牢なID保存を実現することが示された。
- 参考スコア(独自算出の注目度): 65.87252658984724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained facial expression editing has long been limited by intrinsic semantic overlap. To address this, we construct the Flex Facial Expression (FFE) dataset with continuous affective annotations and establish FFE-Bench to evaluate structural confusion, editing accuracy, linear controllability, and the trade-off between expression editing and identity preservation. We propose PixelSmile, a diffusion framework that disentangles expression semantics via fully symmetric joint training. PixelSmile combines intensity supervision with contrastive learning to produce stronger and more distinguishable expressions, achieving precise and stable linear expression control through textual latent interpolation. Extensive experiments demonstrate that PixelSmile achieves superior disentanglement and robust identity preservation, confirming its effectiveness for continuous, controllable, and fine-grained expression editing, while naturally supporting smooth expression blending.
- Abstract(参考訳): 微粒な表情の編集は、内在的な意味の重なりによって長い間制限されてきた。
この問題に対処するため,Flex Facial Expression (FFE) データセットを構築し,FFE-Bench を確立し,構造的混乱,編集精度,線形制御性,表現編集とアイデンティティ保存のトレードオフを評価する。
完全対称関節トレーニングにより表現意味をアンタングル化する拡散フレームワークであるPixelSmileを提案する。
PixelSmileは、強度管理とコントラスト学習を組み合わせることで、より強く、より区別可能な表現を生成し、テキスト潜在補間による正確で安定した線形表現制御を実現する。
大規模な実験により、PixelSmileは優れた絡み合いと堅牢なアイデンティティ保存を実現し、滑らかな表現ブレンディングを自然にサポートしながら、連続的、制御可能、きめ細かい表現編集の有効性を確認した。
関連論文リスト
- Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization [39.32685427601982]
RAF(Retrieval-Augmented Faces)は、データから変形を学習するテンプレートレスヘッドアバター用に設計された、簡単なトレーニング時間拡張である。
RAFは、被験者の表現のサブセットを、被験者のオリジナルのフレームを再構築しながら、この銀行から取得した最も近い隣の表現に置き換える。
RAFは、自動運転とクロスドライブの両方のシナリオにおいて、ベースラインに対する表現の忠実度を一貫して改善する。
論文 参考訳(メタデータ) (2026-03-09T17:24:11Z) - PixPerfect: Seamless Latent Diffusion Local Editing with Discriminative Pixel-Space Refinement [52.21370023312275]
PixPerfectは、さまざまなLCMアーキテクチャやタスクにまたがるシームレスで高忠実なローカル編集を提供するピクセルレベルの精細化フレームワークである。
インペイント、オブジェクト除去、挿入ベンチマークの実験により、PixPerfectは知覚の忠実度と下流編集性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-02T21:35:57Z) - Gen-AFFECT: Generation of Avatar Fine-grained Facial Expressions with Consistent identiTy [15.26953477181137]
GEN-AFFECTはパーソナライズされたアバター生成のための新しいフレームワークである。
表情の多様なセットを持つ表現的でアイデンティティに一貫性のあるアバターを生成する。
論文 参考訳(メタデータ) (2025-08-13T03:35:35Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。