Fugu-MT 論文翻訳(概要): ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment

論文の概要: ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment

arxiv url: http://arxiv.org/abs/2308.14448v2
Date: Mon, 11 Sep 2023 08:56:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 18:38:18.429393
Title: ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment
Title（参考訳）: ExpCLIP:意味的アライメントによるテキストと表情のブリッジ
Authors: Yicheng Zhong, Huawei Wei, Peiji Yang, Zhisheng Wang
Abstract要約: 本稿では、感情のプロンプトとして自然言語を活用することにより、任意のスタイルの制御を可能にする手法を提案する。提案手法は,表現力のある表情生成を実現し,所望のスタイルを効果的に伝達する柔軟性を向上する。
参考スコア（独自算出の注目度）: 5.516575655881858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The objective of stylized speech-driven facial animation is to create animations that encapsulate specific emotional expressions. Existing methods often depend on pre-established emotional labels or facial expression templates, which may limit the necessary flexibility for accurately conveying user intent. In this research, we introduce a technique that enables the control of arbitrary styles by leveraging natural language as emotion prompts. This technique presents benefits in terms of both flexibility and user-friendliness. To realize this objective, we initially construct a Text-Expression Alignment Dataset (TEAD), wherein each facial expression is paired with several prompt-like descriptions.We propose an innovative automatic annotation method, supported by Large Language Models (LLMs), to expedite the dataset construction, thereby eliminating the substantial expense of manual annotation. Following this, we utilize TEAD to train a CLIP-based model, termed ExpCLIP, which encodes text and facial expressions into semantically aligned style embeddings. The embeddings are subsequently integrated into the facial animation generator to yield expressive and controllable facial animations. Given the limited diversity of facial emotions in existing speech-driven facial animation training data, we further introduce an effective Expression Prompt Augmentation (EPA) mechanism to enable the animation generator to support unprecedented richness in style control. Comprehensive experiments illustrate that our method accomplishes expressive facial animation generation and offers enhanced flexibility in effectively conveying the desired style.
Abstract（参考訳）: スタイリッシュな音声駆動顔アニメーションの目的は、特定の感情表現をカプセル化したアニメーションを作ることである。既存の方法は、しばしば事前に確立された感情ラベルや表情テンプレートに依存し、ユーザーの意図を正確に伝達するために必要な柔軟性を制限する。本研究では,自然言語を感情刺激として活用することにより,任意のスタイルを制御できる手法を提案する。このテクニックは柔軟性とユーザフレンドリという両面でメリットをもたらします。この目的を達成するために、まずテキスト表現アライメントデータセット(TEAD)を構築し、各表情を複数のプロンプト的な記述と組み合わせ、大規模言語モデル(LLM)がサポートする革新的な自動アノテーション手法を提案し、データセット構築を高速化し、手動アノテーションの大幅なコストを削減した。これに続いて、TEADを用いてCLIPベースのモデルであるExpCLIPをトレーニングし、テキストと表情を意味的に整合したスタイルの埋め込みにエンコードする。埋め込みはその後、表情アニメーションジェネレータに統合され、表現的で制御可能な顔アニメーションが得られる。既存の音声駆動型顔アニメーション訓練データにおいて、表情感情の多様性が限定されていることを考慮し、アニメーション生成がスタイル制御における前代未聞の豊かさをサポートできるように、効果的な表現プロンプト増強(EPA)機構を導入する。包括的実験により,提案手法は表現力のある顔のアニメーション生成を実現し,所望のスタイルを効果的に伝達する柔軟性の向上を図っている。

関連論文リスト

MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
Emotional Face-to-Speech [13.725558939494407]
既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。 DemoFaceは、離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークである。本研究では,多様な条件付きシナリオに対処し,多条件生成と複雑な属性の解離を効果的に行うための予測自由誘導法を開発した。
論文参考訳（メタデータ） (2025-02-03T04:48:50Z)
When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文参考訳（メタデータ） (2024-12-03T15:39:05Z)
Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。感情-中性変換を用いた知識強化FER法を提案する。
論文参考訳（メタデータ） (2024-09-13T07:28:57Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文参考訳（メタデータ） (2024-07-25T18:29:48Z)
CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。主な課題は、データ制限、唇のアライメント、表情の自然さである。本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文参考訳（メタデータ） (2024-04-29T11:19:15Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文参考訳（メタデータ） (2023-10-25T21:22:28Z)
AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。鮮やかな表情と頭部のポーズを生成する。
論文参考訳（メタデータ） (2023-10-11T06:56:08Z)
GaFET: Learning Geometry-aware Facial Expression Translation from In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文参考訳（メタデータ） (2023-08-07T09:03:35Z)
Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。広視野の表情を、制御可能な感情タイプと強度で表現することができる。感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文参考訳（メタデータ） (2023-01-05T11:17:19Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。