論文の概要: ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment
- arxiv url: http://arxiv.org/abs/2308.14448v2
- Date: Mon, 11 Sep 2023 08:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:38:18.429393
- Title: ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment
- Title(参考訳): ExpCLIP:意味的アライメントによるテキストと表情のブリッジ
- Authors: Yicheng Zhong, Huawei Wei, Peiji Yang, Zhisheng Wang
- Abstract要約: 本稿では、感情のプロンプトとして自然言語を活用することにより、任意のスタイルの制御を可能にする手法を提案する。
提案手法は,表現力のある表情生成を実現し,所望のスタイルを効果的に伝達する柔軟性を向上する。
- 参考スコア(独自算出の注目度): 5.516575655881858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of stylized speech-driven facial animation is to create
animations that encapsulate specific emotional expressions. Existing methods
often depend on pre-established emotional labels or facial expression
templates, which may limit the necessary flexibility for accurately conveying
user intent. In this research, we introduce a technique that enables the
control of arbitrary styles by leveraging natural language as emotion prompts.
This technique presents benefits in terms of both flexibility and
user-friendliness. To realize this objective, we initially construct a
Text-Expression Alignment Dataset (TEAD), wherein each facial expression is
paired with several prompt-like descriptions.We propose an innovative automatic
annotation method, supported by Large Language Models (LLMs), to expedite the
dataset construction, thereby eliminating the substantial expense of manual
annotation. Following this, we utilize TEAD to train a CLIP-based model, termed
ExpCLIP, which encodes text and facial expressions into semantically aligned
style embeddings. The embeddings are subsequently integrated into the facial
animation generator to yield expressive and controllable facial animations.
Given the limited diversity of facial emotions in existing speech-driven facial
animation training data, we further introduce an effective Expression Prompt
Augmentation (EPA) mechanism to enable the animation generator to support
unprecedented richness in style control. Comprehensive experiments illustrate
that our method accomplishes expressive facial animation generation and offers
enhanced flexibility in effectively conveying the desired style.
- Abstract(参考訳): スタイリッシュな音声駆動顔アニメーションの目的は、特定の感情表現をカプセル化したアニメーションを作ることである。
既存の方法は、しばしば事前に確立された感情ラベルや表情テンプレートに依存し、ユーザーの意図を正確に伝達するために必要な柔軟性を制限する。
本研究では,自然言語を感情刺激として活用することにより,任意のスタイルを制御できる手法を提案する。
このテクニックは柔軟性とユーザフレンドリという両面でメリットをもたらします。
この目的を達成するために、まずテキスト表現アライメントデータセット(TEAD)を構築し、各表情を複数のプロンプト的な記述と組み合わせ、大規模言語モデル(LLM)がサポートする革新的な自動アノテーション手法を提案し、データセット構築を高速化し、手動アノテーションの大幅なコストを削減した。
これに続いて、TEADを用いてCLIPベースのモデルであるExpCLIPをトレーニングし、テキストと表情を意味的に整合したスタイルの埋め込みにエンコードする。
埋め込みはその後、表情アニメーションジェネレータに統合され、表現的で制御可能な顔アニメーションが得られる。
既存の音声駆動型顔アニメーション訓練データにおいて、表情感情の多様性が限定されていることを考慮し、アニメーション生成がスタイル制御における前代未聞の豊かさをサポートできるように、効果的な表現プロンプト増強(EPA)機構を導入する。
包括的実験により,提案手法は表現力のある顔のアニメーション生成を実現し,所望のスタイルを効果的に伝達する柔軟性の向上を図っている。
関連論文リスト
- Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。