論文の概要: FIELDS: Face reconstruction with accurate Inference of Expression using Learning with Direct Supervision
- arxiv url: http://arxiv.org/abs/2511.21245v1
- Date: Wed, 26 Nov 2025 10:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.056801
- Title: FIELDS: Face reconstruction with accurate Inference of Expression using Learning with Direct Supervision
- Title(参考訳): FIELDS:直接監督による学習による表情推定による顔再構成
- Authors: Chen Ling, Henglin Shi, Hedvig Kjellström,
- Abstract要約: FIELDSは感情に富んだ表情モデルを生成し,自然さを犠牲にすることなく顔の認識性能を大幅に向上させる。
エンコーダは, 自発性4次元顔画像から表現パラメータを導出する一方, 強勢に敏感な感情の喪失は, 誇張を伴わずに実際の感情を捉えることを奨励する。
- 参考スコア(独自算出の注目度): 5.903595788782866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial expressions convey the bulk of emotional information in human communication, yet existing 3D face reconstruction methods often miss subtle affective details due to reliance on 2D supervision and lack of 3D ground truth. We propose FIELDS (Face reconstruction with accurate Inference of Expression using Learning with Direct Supervision) to address these limitations by extending self-supervised 2D image consistency cues with direct 3D expression parameter supervision and an auxiliary emotion recognition branch. Our encoder is guided by authentic expression parameters from spontaneous 4D facial scans, while an intensity-aware emotion loss encourages the 3D expression parameters to capture genuine emotion content without exaggeration. This dual-supervision strategy bridges the 2D/3D domain gap and mitigates expression-intensity bias, yielding high-fidelity 3D reconstructions that preserve subtle emotional cues. From a single image, FIELDS produces emotion-rich face models with highly realistic expressions, significantly improving in-the-wild facial expression recognition performance without sacrificing naturalness.
- Abstract(参考訳): 表情は人間のコミュニケーションにおいて感情的な情報の大部分を伝達するが、既存の3D顔再構成法は2Dの監督と3Dの地上の真実の欠如により、微妙な感情的な詳細を見逃すことがしばしばある。
直接的3次元表現パラメータ制御と補助的感情認識分岐を併用した自己教師付き2次元画像整合性キューを拡張して,これらの制約に対処するためのFIELDS (face reconstruction with accurate Inference of Expression with Learning with Direct Supervision)を提案する。
エンコーダは, 自発性4次元顔画像から表現パラメータを導出する一方, 強勢に敏感な感情の喪失は, 誇張を伴わずに実際の感情を捉えることを奨励する。
この二重スーパービジョン戦略は2D/3D領域ギャップを橋渡し、表現強度バイアスを緩和し、微妙な感情的な手がかりを保った高忠実度3D再構成をもたらす。
単一画像から、FIELDSは、非常にリアルな表情を持つ感情に富んだ顔モデルを生成し、自然性を犠牲にすることなく、顔の認識性能を大幅に改善する。
関連論文リスト
- VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - TEASER: Token Enhanced Spatial Modeling for Expressions Reconstruction [29.41924691414499]
人物中心のコンピュータビジョンタスクでは,1つの眼内画像からの3D顔の再構成が重要な課題である。
現在のアプローチでは、誇張された不規則な口の形、表情、非対称な顔の動きに苦労している。
本稿では,これらの課題に対処し,顔形状を3次元的に拡張するTEASERを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:00:06Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - MOST-GAN: 3D Morphable StyleGAN for Disentangled Face Image Manipulation [69.35523133292389]
本稿では,顔の物理的属性を明示的にモデル化するフレームワークを提案する。
提案手法であるMOST-GANは,GANの表現力と光リアリズムを,非線形3次元形態素モデルの物理的ゆがみおよび柔軟性と統合する。
ポートレート画像の物理的特性を完全に3D制御する写真リアルな操作を実現し、照明の極端な操作、表情、およびフルプロファイルビューまでのポーズのバリエーションを可能にする。
論文 参考訳(メタデータ) (2021-11-01T15:53:36Z) - Real-time Facial Expression Recognition "In The Wild'' by Disentangling
3D Expression from Identity [6.974241731162878]
本稿では,1枚のRGB画像から人間の感情認識を行う新しい手法を提案する。
顔のダイナミックス、アイデンティティ、表情、外観、3Dポーズのバリエーションに富んだ大規模な顔ビデオデータセットを構築した。
提案するフレームワークは毎秒50フレームで動作し、3次元表現変動のパラメータを頑健に推定することができる。
論文 参考訳(メタデータ) (2020-05-12T01:32:55Z) - Differential 3D Facial Recognition: Adding 3D to Your State-of-the-Art
2D Method [90.26041504667451]
能動照明を応用して最先端の2D顔認証手法を3次元特徴量で拡張できることが示唆された。
提案手法は顔認識性能を大幅に向上させ,スプーフィング攻撃に対するロバスト性を劇的に向上させる。
論文 参考訳(メタデータ) (2020-04-03T20:17:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。