Fugu-MT 論文翻訳(概要): Personalized Cross-Modal Emotional Correlation Learning for Speech-Preserving Facial Expression Manipulation

論文の概要: Personalized Cross-Modal Emotional Correlation Learning for Speech-Preserving Facial Expression Manipulation

arxiv url: http://arxiv.org/abs/2604.25255v1
Date: Tue, 28 Apr 2026 06:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.728617
Title: Personalized Cross-Modal Emotional Correlation Learning for Speech-Preserving Facial Expression Manipulation
Title（参考訳）: 音声保存表情操作のためのパーソナライズされたクロスモーダル感情相関学習
Authors: Tianshui Chen, Yujie Zhu, Jianman Lin, Zhijing Yang, Chunmei Qing, Feng Gao, Liang Lin,
Abstract要約: 音声保存表情操作は、本来の音声に結びついた口の動きを変えることなく、人間の表現力を高めることを目的としている。現在のVisual-Language Models (VLM)は、整列した視覚的特徴と意味的特徴を抽出し、将来的な監視の源となる。 VLMをベースとしたパーソナライズされたクロスモーダル感情相関学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 63.90351637818903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-preserving facial expression manipulation (SPFEM) aims to enhance human expressiveness without altering mouth movements tied to the original speech. A primary challenge in this domain is the scarcity of paired data, namely aligned frames of the same individual with identical speech but different expressions, which impedes direct supervision for emotional manipulation. While current Visual-Language Models (VLMs) can extract aligned visual and semantic features, making them a promising source of supervision, their direct application is limited. To this end, we propose a Personalized Cross-Modal Emotional Correlation Learning (PCMECL) algorithm that refines VLM-based supervision through two major improvements. First, standard VLMs rely on a single generic prompt for each emotion, failing to capture expressive variations among individuals. PCMECL addresses this limitation by conditioning on individual visual information to learn personalized prompts, thereby establishing more fine-grained visual-semantic correlations. Second, even with personalization, inherent discrepancies persist between the visual and semantic feature distributions. To bridge this modality gap, PCMECL employs feature differencing to correlate the modalities, providing more precisely aligned supervision by matching the change in visual features to the change in semantic features. As a plug-and-play module, PCMECL can be seamlessly integrated into existing SPFEM models. Extensive experiments across various datasets demonstrate the superior efficacy of our algorithm.
Abstract（参考訳）: 音声保存表情操作 (SPFEM) は, 口の動きを元の音声に結び付けることなく, 人間の表情性を高めることを目的としている。この領域における主な課題は、ペア化されたデータの不足、すなわち同一人物の同列のフレームが同一だが表現が異なることであり、感情的な操作の直接的な監督を妨げている。現行のVisual-Language Models (VLM)は、協調した視覚的特徴と意味的特徴を抽出できるため、監督の有望な源となっているが、その直接的なアプリケーションは限られている。そこで本研究では,VLMに基づく監視を改良したパーソナライズされたクロスモーダル感情相関学習(PCMECL)アルゴリズムを提案する。第一に、標準のVLMは感情ごとに1つの一般的なプロンプトに依存しており、個人間の表現的なバリエーションを捉えていない。 PCMECLはこの制限に対処するため、個々の視覚情報を条件付けしてパーソナライズされたプロンプトを学習し、よりきめ細かいビジュアル・セマンティックな相関関係を確立する。第二に、パーソナライゼーションにおいても、視覚的特徴分布と意味的特徴分布の間に固有の相違が持続する。このモダリティギャップを埋めるため、PCMECLは特徴差を利用してモダリティを相関させ、視覚的特徴の変化と意味的特徴の変化を一致させることにより、より正確に整合した監督を提供する。プラグアンドプレイモジュールとして、PCMECLは既存のSPFEMモデルにシームレスに統合できる。様々なデータセットにわたる大規模な実験は、アルゴリズムの優れた有効性を示す。

関連論文リスト

Learning Spatial-Temporal Coherent Correlations for Speech-Preserving Facial Expression Manipulation [75.05465510260944]
音声保存顔表情操作(SPFEM)は、音声コンテンツに関連する口のアニメーションを注意深く維持しながら、顔の感情を変更することを目的としている。現在の作業は、現実のシナリオにおけるSPFEM適用を制限するため、2つのアライメントフレームが同じ音声内容を示すが、感情表現では異なる、アクセス不能なペアトレーニングサンプルに依存している。本稿では、上記の相関関係を明示的な指標としてモデル化し、その指標を統合して、表情の操作を監督し、音声コンテンツの表情アニメーションをよりよく保存する新しい時空間コヒーレント相関学習(STCCL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2026-04-22T06:20:10Z)
Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。 ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2026-03-12T14:20:29Z)
Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。 DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文参考訳（メタデータ） (2025-11-14T04:49:58Z)
Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文参考訳（メタデータ） (2025-06-26T05:28:57Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial Expression Recognition [1.8604727699812171]
本稿では,CLIPに基づく静的および動的表情認識のための統合フレームワークを提案する。複数式テキスト記述子(METD)を導入し,CLIPERをより解釈しやすい表現の微粒化を学習する。
論文参考訳（メタデータ） (2023-03-01T02:59:55Z)
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。 MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-25T17:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。