Fugu-MT 論文翻訳(概要): Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation

論文の概要: Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation

arxiv url: http://arxiv.org/abs/2504.05672v1
Date: Tue, 08 Apr 2025 04:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 02:21:17.176112
Title: Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation
Title（参考訳）: 顔表情操作のためのコントラスト非結合表現学習と正規化
Authors: Tianshui Chen, Jianman Lin, Zhijing Yang, Chumei Qing, Yukai Shi, Liang Lin,
Abstract要約: 音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
参考スコア（独自算出の注目度）: 58.189703277322224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-preserving facial expression manipulation (SPFEM) aims to modify a talking head to display a specific reference emotion while preserving the mouth animation of source spoken contents. Thus, emotion and content information existing in reference and source inputs can provide direct and accurate supervision signals for SPFEM models. However, the intrinsic intertwining of these elements during the talking process poses challenges to their effectiveness as supervisory signals. In this work, we propose to learn content and emotion priors as guidance augmented with contrastive learning to learn decoupled content and emotion representation via an innovative Contrastive Decoupled Representation Learning (CDRL) algorithm. Specifically, a Contrastive Content Representation Learning (CCRL) module is designed to learn audio feature, which primarily contains content information, as content priors to guide learning content representation from the source input. Meanwhile, a Contrastive Emotion Representation Learning (CERL) module is proposed to make use of a pre-trained visual-language model to learn emotion prior, which is then used to guide learning emotion representation from the reference input. We further introduce emotion-aware and emotion-augmented contrastive learning to train CCRL and CERL modules, respectively, ensuring learning emotion-independent content representation and content-independent emotion representation. During SPFEM model training, the decoupled content and emotion representations are used to supervise the generation process, ensuring more accurate emotion manipulation together with audio-lip synchronization. Extensive experiments and evaluations on various benchmarks show the effectiveness of the proposed algorithm.
Abstract（参考訳）: 音声保存顔表情操作(SPFEM)は、発話頭部を修正して特定の参照感情を呈示し、元の音声内容の口アニメーションを保存することを目的としている。したがって、参照およびソース入力に存在する感情や内容情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。しかし、会話過程におけるこれらの要素の内在的相互干渉は、監督信号としての有効性に課題をもたらす。本研究では,コントラッシブ・デカップリング・リ表現学習(Contrastive Decoupled Representation Learning, CDRL)アルゴリズムを用いて,コントラッシブ・ラーニングを付加したガイダンスとして,コンテンツと感情の事前学習を提案する。具体的には、コントラストコンテンツ表現学習(Contrastive Content Representation Learning, CCRL)モジュールは、主にコンテンツ情報を含む音声特徴を学習するために設計されている。一方,コントラスト型感情表現学習(CERL)モジュールは,事前に学習された視覚言語モデルを用いて感情を学習し,参照入力から学習感情表現を導出する。さらに,CCRLモジュールとCERLモジュールを学習し,感情非依存のコンテンツ表現とコンテンツ非依存の感情表現を確保するために,感情認識と感情強化のコントラスト学習を導入する。 SPFEMモデルトレーニングでは、分離されたコンテンツと感情表現を使用して生成プロセスを監督し、オーディオ-リップ同期とともにより正確な感情操作を保証する。様々なベンチマークにおける実験と評価により,提案アルゴリズムの有効性が示された。

関連論文リスト

EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
本稿では,視覚芸術理解における重要な課題に焦点をあてる。芸術的イメージを与えられたモデルは,特定の人間の感情を誘発するピクセル領域をピンポイントする。近年の芸術理解の進歩にもかかわらず、ピクセルレベルの感情理解は依然として二重の課題に直面している。本稿では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激・説明モデル(EmoSEM)を提案する。
論文参考訳（メタデータ） (2025-04-20T15:40:00Z)
EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文参考訳（メタデータ） (2024-04-25T15:15:36Z)
Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios [6.987099464814016]
MOOC(Massive Open Online Courses)では,指導ビデオの意味情報は学習者の感情状態に決定的な影響を及ぼす。本稿では,映像意味情報と意味信号の融合によるマルチモーダル感情認識手法を提案する。実験の結果,本手法は感情認識性能を著しく改善したことが示された。
論文参考訳（メタデータ） (2024-04-11T05:44:27Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Exploring Emotion Expression Recognition in Older Adults Interacting with a Virtual Coach [22.00225071959289]
EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
論文参考訳（メタデータ） (2023-11-09T18:22:32Z)
StyleEDL: Style-Guided High-order Attention Network for Image Emotion Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。 StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文参考訳（メタデータ） (2023-08-06T03:22:46Z)
Learning Emotion Representations from Verbal and Nonverbal Communication [7.747924294389427]
本稿では,言語・非言語コミュニケーションから視覚的感情表現を抽出する最初の事前学習パラダイムであるEmotionCLIPを提案する。 EmotionCLIPは、感情誘導型コントラスト学習を用いて、主観的文脈エンコーディングと言語感情キューを通じて、非言語感情キューへの参加を誘導する。 EmotionCLIPは、感情理解におけるデータ不足の一般的な問題に対処し、関連する領域の進歩を促進する。
論文参考訳（メタデータ） (2023-05-22T21:36:55Z)
An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文参考訳（メタデータ） (2021-06-05T06:19:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。