論文の概要: LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space
- arxiv url: http://arxiv.org/abs/2411.09268v1
- Date: Thu, 14 Nov 2024 08:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:35.797006
- Title: LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space
- Title(参考訳): LES-Talker:線形感情空間における頭部生成のための微粒な感情編集
- Authors: Guanwen Feng, Zhihao Qian, Yunan Li, Siyu Jin, Qiguang Miao, Chi-Man Pun,
- Abstract要約: LES-Talker(英語版)は、高い解釈性を有する新規なワンショット音声ヘッド生成モデルである。
本手法は,多面的,解釈可能な微粒な感情編集とともに,視覚的品質を向上し,主流の手法より優れる。
- 参考スコア(独自算出の注目度): 31.617532479091757
- License:
- Abstract: While existing one-shot talking head generation models have achieved progress in coarse-grained emotion editing, there is still a lack of fine-grained emotion editing models with high interpretability. We argue that for an approach to be considered fine-grained, it needs to provide clear definitions and sufficiently detailed differentiation. We present LES-Talker, a novel one-shot talking head generation model with high interpretability, to achieve fine-grained emotion editing across emotion types, emotion levels, and facial units. We propose a Linear Emotion Space (LES) definition based on Facial Action Units to characterize emotion transformations as vector transformations. We design the Cross-Dimension Attention Net (CDAN) to deeply mine the correlation between LES representation and 3D model representation. Through mining multiple relationships across different feature and structure dimensions, we enable LES representation to guide the controllable deformation of 3D model. In order to adapt the multimodal data with deviations to the LES and enhance visual quality, we utilize specialized network design and training strategies. Experiments show that our method provides high visual quality along with multilevel and interpretable fine-grained emotion editing, outperforming mainstream methods.
- Abstract(参考訳): 既存のワンショット音声ヘッド生成モデルは、粗粒度感情編集の進歩を達成しているが、高い解釈性を持つ微粒度感情編集モデルがまだ存在しない。
我々は、アプローチをきめ細かいものと見なすためには、明確な定義と十分に詳細な分化を提供する必要があると論じる。
LES-Talkerは,感情タイプ,感情レベル,顔単位の微粒な感情編集を実現するために,高い解釈性を有する新規なワンショット音声ヘッド生成モデルである。
本稿では、感情変換をベクトル変換として特徴付けるために、顔行動単位に基づく線形感情空間(LES)の定義を提案する。
我々は,LES表現と3次元モデル表現の相関関係を深く掘り下げるために,CDAN(Cross-Dimension Attention Net)を設計する。
異なる特徴および構造次元の複数の関係をマイニングすることにより、LES表現が3次元モデルの制御可能な変形を導くことができる。
LESに偏りのあるマルチモーダルデータに適応し、視覚的品質を向上させるために、我々は、特殊なネットワーク設計とトレーニング戦略を利用する。
実験により,本手法は多レベルかつ解釈可能な微粒な感情編集とともに,視覚的品質を向上し,本手法よりも優れることが示された。
関連論文リスト
- Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description [3.52270271101496]
Emo3Dは、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である。
我々は多種多様なテキスト記述を生成し、感情表現の幅広い範囲を捉えやすくする。
エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。
論文 参考訳(メタデータ) (2024-10-02T21:31:24Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoEdit: Evoking Emotions through Image Manipulation [62.416345095776656]
EmoEditは感情の属性と画像の編集を含む新しい2段階のフレームワークである。
感情帰属の段階では、視覚言語モデル(VLM)を用いて抽象的な感情を表現する意味的要因の階層を作成する。
画像編集段階では、VLMは提供された画像の最も関連性の高い要素を特定し、生成編集モデルを誘導し、情緒的な修正を行う。
論文 参考訳(メタデータ) (2024-05-21T10:18:45Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。