論文の概要: Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
- arxiv url: http://arxiv.org/abs/2506.10010v1
- Date: Thu, 08 May 2025 10:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.08627
- Title: Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction
- Title(参考訳): 動的相互作用における音声・顔・身体ジェスチャーによるマルチモーダル感情結合
- Authors: Von Ralph Dane Marquez Herbuela, Yukie Nagai,
- Abstract要約: 人間の感情表現は、協調した声、顔、およびジェスチャーの信号を通して現れる。
感情表現型音声と局所的な顔と手の動きを結びつけるより広いダイナミクスは、実際の相互作用において、感情的および行動的手がかりがどのようにコミュニケーションされるかについて深い洞察を得る上で、依然として不可欠である。
本研究では,IEMOCAPコーパスにおけるダイアディック相互作用からの領域特異的モーションキャプチャを用いたマルチモーダル感情結合について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human emotional expression emerges through coordinated vocal, facial, and gestural signals. While speech face alignment is well established, the broader dynamics linking emotionally expressive speech to regional facial and hand motion remains critical for gaining a deeper insight into how emotional and behavior cues are communicated in real interactions. Further modulating the coordination is the structure of conversational exchange like sequential turn taking, which creates stable temporal windows for multimodal synchrony, and simultaneous speech, often indicative of high arousal moments, disrupts this alignment and impacts emotional clarity. Understanding these dynamics enhances realtime emotion detection by improving the accuracy of timing and synchrony across modalities in both human interactions and AI systems. This study examines multimodal emotion coupling using region specific motion capture from dyadic interactions in the IEMOCAP corpus. Speech features included low level prosody, MFCCs, and model derived arousal, valence, and categorical emotions (Happy, Sad, Angry, Neutral), aligned with 3D facial and hand marker displacements. Expressive activeness was quantified through framewise displacement magnitudes, and speech to gesture prediction mapped speech features to facial and hand movements. Nonoverlapping speech consistently elicited greater activeness particularly in the lower face and mouth. Sadness showed increased expressivity during nonoverlap, while anger suppressed gestures during overlaps. Predictive mapping revealed highest accuracy for prosody and MFCCs in articulatory regions while arousal and valence had lower and more context sensitive correlations. Notably, hand speech synchrony was enhanced under low arousal and overlapping speech, but not for valence.
- Abstract(参考訳): 人間の感情表現は、協調した声、顔、およびジェスチャーの信号を通して現れる。
音声の顔のアライメントは確立されているが、感情的な表情と局所的な顔と手の動きを結びつけたより広範なダイナミクスは、実際の相互作用において感情的および行動的手がかりがどのようにコミュニケーションされるかについて深い洞察を得る上で重要である。
コーディネーションのさらなる調整は、シーケンシャル・ターン・テイクのような会話交換の構造であり、マルチモーダル・シンクロニーのための安定したテンポラリ・ウィンドウと、しばしば高い覚醒モーメントを示す同時音声を生成し、このアライメントを乱し、感情的明瞭さに影響を与える。
これらのダイナミクスを理解することで、人間のインタラクションとAIシステムの両方におけるモダリティ間のタイミングと同期の精度を向上させることにより、リアルタイムの感情検出が向上する。
本研究では,IEMOCAPコーパスにおけるダイアディック相互作用からの領域特異的モーションキャプチャを用いたマルチモーダル感情結合について検討した。
低レベルの韻律, MFCC, モデルによる覚醒, ヴァレンス, カテゴリー感情(Happy, Sad, Angry, Neutral)は, 3次元の顔と手のマーカーの変位と一致した。
フレーム方向の変位の程度によって表情の能率を定量化し, 顔と手の動きにジェスチャー予測の音声特徴をマッピングした。
非重複音声は、特に下顔と口において、常に活動性を高めた。
悲しみは非オーバーラップ時の表現力を高める一方、怒りは重なりあい時のジェスチャーを抑圧した。
調音領域における韻律とMFCCの精度は高いが,覚醒と有価感の相関は低かった。
特に,低刺激および重み付け音声下で手話同期が強化されたが,有意差は認められなかった。
関連論文リスト
- Spatiotemporal Emotional Synchrony in Dyadic Interactions: The Role of Speech Conditions in Facial and Vocal Affective Alignment [0.0]
非重複音声は、より明確な感情的調整を促進する。
重なり合う言葉は同期を乱す。
指向性パターンでは, 顔の表情が発話に先行する傾向がみられた。
論文 参考訳(メタデータ) (2025-04-29T14:41:55Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。
我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。
提案手法の有効性を実験・解析により検証した。
論文 参考訳(メタデータ) (2024-09-29T01:02:01Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。