論文の概要: Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars
- arxiv url: http://arxiv.org/abs/2604.14541v1
- Date: Thu, 16 Apr 2026 02:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.681722
- Title: Giving Faces Their Feelings Back: Explicit Emotion Control for Feedforward Single-Image 3D Head Avatars
- Title(参考訳): 顔の表情を戻す:フィードフォワード方式の3Dヘッドアバターの感情制御
- Authors: Yicheng Gong, Jiawei Zhang, Liqiang Liu, Yanwen Wang, Lei Chu, Jiahao Li, Hao Pan, Hao Zhu, Yan Lu,
- Abstract要約: フィードフォワード, シングルイメージ3D頭部アバター再構成における明示的な感情制御のための枠組みを提案する。
我々は感情を一級制御信号として扱い、独立して一貫したアイデンティティにわたって操作できる。
- 参考スコア(独自算出の注目度): 30.195753051123003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for explicit emotion control in feed-forward, single-image 3D head avatar reconstruction. Unlike existing pipelines where emotion is implicitly entangled with geometry or appearance, we treat emotion as a first-class control signal that can be manipulated independently and consistently across identities. Our method injects emotion into existing feed-forward architectures via a dual-path modulation mechanism without modifying their core design. Geometry modulation performs emotion-conditioned normalization in the original parametric space, disentangling emotional state from speech-driven articulation, while appearance modulation captures identity-aware, emotion-dependent visual cues beyond geometry. To enable learning under this setting, we construct a time-synchronized, emotion-consistent multi-identity dataset by transferring aligned emotional dynamics across identities. Integrated into multiple state-of-the-art backbones, our framework preserves reconstruction and reenactment fidelity while enabling controllable emotion transfer, disentangled manipulation, and smooth emotion interpolation, advancing expressive and scalable 3D head avatars.
- Abstract(参考訳): フィードフォワード, シングルイメージ3D頭部アバター再構成における明示的な感情制御のための枠組みを提案する。
感情が幾何や外観と暗黙的に絡み合っている既存のパイプラインとは異なり、感情は独立して一貫したアイデンティティにわたって操作できる一級制御信号として扱う。
本手法は,既存のフィードフォワードアーキテクチャに対して,コア設計を変更することなく,デュアルパス変調機構を通じて感情を注入する。
ジオメトリ変調は、元のパラメトリック空間において感情条件の正規化を行い、音声による調音から感情状態を遠ざける一方で、外見変調は、幾何を超えたアイデンティティを意識し、感情に依存しない視覚的手がかりをキャプチャする。
この設定下での学習を可能にするため、時間同期・感情整合性多元性データセットを構築し、一致した感情的ダイナミクスを同一性間で転送する。
複数の最先端のバックボーンに統合され、制御可能な感情伝達、不整合操作、スムーズな感情補間を可能にし、表現力とスケーラブルな3D頭部アバターを前進させながら、再建と再現の忠実さを保ちます。
関連論文リスト
- EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation [7.245162028678732]
EmoKGEditは、正確で構造を保った画像感情編集のための新しいトレーニング不要のフレームワークである。
オブジェクト,シーン,属性,視覚的手がかり,感情間の関係を乱すために,マルチモーダル・センティメント・アソシエーション・ナレッジグラフを構築した。
EmoKGEditは感情の忠実さとコンテンツ保存の両面で優れた性能を発揮し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-01-18T09:20:09Z) - Mind-to-Face: Neural-Driven Photorealistic Avatar Synthesis via EEG Decoding [11.030344145348097]
非侵襲脳波(EEG)信号を高忠実度表情に直接デコードする最初のフレームワークであるMind-to-Faceを提案する。
脳波だけでは、微妙な感情反応を含む動的、主観的な表情を確実に予測できることが示される。
Mind-to-Faceは、ニューラル駆動アバターの新しいパラダイムを確立し、没入型環境におけるパーソナライズされた感情認識のテレプレゼンスと認知的相互作用を可能にする。
論文 参考訳(メタデータ) (2025-12-03T23:02:27Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。