論文の概要: Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
- arxiv url: http://arxiv.org/abs/2604.07786v1
- Date: Thu, 09 Apr 2026 04:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.69169
- Title: Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
- Title(参考訳): 対面映像における感情編集のためのクロスモーダル感情伝達
- Authors: Chanhyuk Choi, Taesoo Kim, Donggyu Lee, Siyeol Jung, Taehwan Kim,
- Abstract要約: C-MET(Cross-Modal Emotion Transfer)は、音声に基づく表情を生成する新しい手法である。
本手法は,最先端手法よりも感情の精度を14%向上させる。
- 参考スコア(独自算出の注目度): 17.472242712450473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/
- Abstract(参考訳): 顔生成は、生成モデルの中核的な応用として注目されている。
合成ビデオの表現性やリアリズムを高めるために,音声音声における感情編集が重要な役割を担っている。
しかし、既存のアプローチはしばしば表現力の柔軟性を制限し、拡張された感情を生成するのに苦労する。
ラベルに基づく手法は、様々な感情を捉えるのに失敗する個別のカテゴリーの感情を表現する。
音声ベースの手法は、感情的に豊かな音声信号を利用することができ、表現力のあるテキスト音声合成(TTS)の恩恵を受けることもできるが、感情や言語内容が感情的な音声に絡まっているため、ターゲットの感情を表現できない。
一方、画像に基づく手法は、感情伝達を誘導するためにターゲット参照画像に依存するが、それらには高品質な正面視と、拡張された感情(sarcasmなど)に対する参照データを取得する上での課題が求められる。
これらの制約に対処するために,音声と視覚特徴空間間の感情意味ベクトルをモデル化することにより,音声に基づく表情を生成する新しい手法であるクロスモーダル感情伝達(C-MET)を提案する。
C-METは、大規模な事前訓練されたオーディオエンコーダと、アンタングルされた表情エンコーダを利用して、モダリティにまたがる2つの異なる感情的埋め込みの違いを表す感情意味ベクトルを学習する。
MEADとCREMA-Dデータセットの大規模な実験により、我々の手法は最先端の手法よりも感情の精度を14%向上し、表現力のある会話の表情ビデオを生成する。
コード、チェックポイント、デモはhttps://chanhyeok-choi.github.io/C-MET/で公開されている。
関連論文リスト
- Text-Driven Emotionally Continuous Talking Face Generation [24.062908127306695]
実写映像を合成するために,情緒的連続発話顔生成(EC-TFG)を提案する。
EC-TFGは、テキストセグメントと様々な感情を駆動データとして記述し、その人がテキストを話すビデオを生成する。
本稿では,動的感情変動を革新的に管理する,時間集中型感情変調顔生成(TIE-TFG)のカスタマイズモデルを提案する。
論文 参考訳(メタデータ) (2026-03-06T09:24:43Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。