論文の概要: Instruction-Driven 3D Facial Expression Generation and Transition
- arxiv url: http://arxiv.org/abs/2601.08179v1
- Date: Tue, 13 Jan 2026 03:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.041945
- Title: Instruction-Driven 3D Facial Expression Generation and Transition
- Title(参考訳): インストラクション駆動型3次元顔表情生成と遷移
- Authors: Anh H. Vo, Tae-Seok Kim, Hulin Jin, Soo-Mi Choi, Yong-Guk Kim,
- Abstract要約: 本研究では,命令駆動型表情生成のための新しい枠組みを提案する。
フレームワークは、3D顔を生成し、顔表情を指定された顔表情から別の顔表情に変換する。
提案モデルはCK+およびCelebV-HQデータセットの最先端手法より優れている。
- 参考スコア(独自算出の注目度): 2.348805691644085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A 3D avatar typically has one of six cardinal facial expressions. To simulate realistic emotional variation, we should be able to render a facial transition between two arbitrary expressions. This study presents a new framework for instruction-driven facial expression generation that produces a 3D face and, starting from an image of the face, transforms the facial expression from one designated facial expression to another. The Instruction-driven Facial Expression Decomposer (IFED) module is introduced to facilitate multimodal data learning and capture the correlation between textual descriptions and facial expression features. Subsequently, we propose the Instruction to Facial Expression Transition (I2FET) method, which leverages IFED and a vertex reconstruction loss function to refine the semantic comprehension of latent vectors, thus generating a facial expression sequence according to the given instruction. Lastly, we present the Facial Expression Transition model to generate smooth transitions between facial expressions. Extensive evaluation suggests that the proposed model outperforms state-of-the-art methods on the CK+ and CelebV-HQ datasets. The results show that our framework can generate facial expression trajectories according to text instruction. Considering that text prompts allow us to make diverse descriptions of human emotional states, the repertoire of facial expressions and the transitions between them can be expanded greatly. We expect our framework to find various practical applications More information about our project can be found at https://vohoanganh.github.io/tg3dfet/
- Abstract(参考訳): 3Dアバターは通常、6つの基本的な表情の1つを持つ。
現実的な感情の変化をシミュレートするためには、2つの任意の表現間の顔の遷移を表現できる必要がある。
本研究では,3次元顔を生成し,顔の画像から顔の表情を1つの指定された表情から別の顔へ変換する,命令駆動型表情生成のための新しい枠組みを提案する。
Instruction-driven Facial Expression Decomposer (IFED) モジュールが導入された。
次に、IFEDと頂点再構成損失関数を利用して、潜伏ベクトルの意味的理解を洗練し、与えられた指示に従って表情列を生成する、顔表情遷移命令(I2FET)法を提案する。
最後に,表情間のスムーズな遷移を生成するための表情遷移モデルを提案する。
大規模評価の結果,CK+およびCelebV-HQデータセットにおいて,提案モデルが最先端の手法より優れていたことが示唆された。
その結果,本フレームワークはテキストの指示に従って表情トラジェクトリを生成することができることがわかった。
テキストのプロンプトが人間の感情状態の多様な記述を可能にすることを考えると、表情のレパートリーとそれらの間の遷移を大きく拡張することができる。
私たちのフレームワークが様々な実用的なアプリケーションを見つけることを期待しています。プロジェクトに関するさらなる情報はhttps://vohoanganh.github.io/tg3dfet/で確認できます。
関連論文リスト
- SEREP: Semantic Facial Expression Representation for Robust In-the-Wild Capture and Retargeting [4.083283519300837]
セマンティックレベルで表現をアイデンティティから切り離すモデルであるSEREPを提案する。
我々は、低品質合成データを用いた新しい半教師付きスキームに基づいて、単眼画像から表現を予測するモデルを訓練する。
実験の結果、SEREPは最先端の手法よりも優れており、挑戦的な表現をキャプチャし、それらを新しいアイデンティティに転送する。
論文 参考訳(メタデータ) (2024-12-18T22:12:28Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。