論文の概要: Whose Emotion Matters? Speaker Detection without Prior Knowledge
- arxiv url: http://arxiv.org/abs/2211.15377v1
- Date: Wed, 23 Nov 2022 09:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 13:50:49.983496
- Title: Whose Emotion Matters? Speaker Detection without Prior Knowledge
- Title(参考訳): 誰の感情が重要か?
事前知識のない話者検出
- Authors: Hugo Carneiro, Cornelius Weber, Stefan Wermter
- Abstract要約: 我々は、MELDリアライメントビデオの顔と音声情報に基づいて訓練された会話における感情認識モデルを開発する。
発話話者からの表情抽出には,能動的話者検出が有効であることを示す。
- 参考スコア(独自算出の注目度): 19.506856578284104
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of emotion recognition in conversations (ERC) benefits from the
availability of multiple modalities, as offered, for example, in the
video-based MELD dataset. However, only a few research approaches use both
acoustic and visual information from the MELD videos. There are two reasons for
this: First, label-to-video alignments in MELD are noisy, making those videos
an unreliable source of emotional speech data. Second, conversations can
involve several people in the same scene, which requires the detection of the
person speaking the utterance. In this paper we demonstrate that by using
recent automatic speech recognition and active speaker detection models, we are
able to realign the videos of MELD, and capture the facial expressions from
uttering speakers in 96.92% of the utterances provided in MELD. Experiments
with a self-supervised voice recognition model indicate that the realigned MELD
videos more closely match the corresponding utterances offered in the dataset.
Finally, we devise a model for emotion recognition in conversations trained on
the face and audio information of the MELD realigned videos, which outperforms
state-of-the-art models for ERC based on vision alone. This indicates that
active speaker detection is indeed effective for extracting facial expressions
from the uttering speakers, and that faces provide more informative visual cues
than the visual features state-of-the-art models have been using so far.
- Abstract(参考訳): 会話(ERC)における感情認識のタスクは、例えばビデオベースのMELDデータセットで提供されるような、複数のモダリティの可用性の恩恵を受ける。
しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。
まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。
第2に、会話は複数の人が同じ場面で会話するので、発話を話す人の検出が必要となる。
本稿では,最近の音声自動認識と能動話者検出モデルを用いて,meldで提供された発話の96.92%において,meldの映像を再現し,発話話者の表情をキャプチャできることを実証する。
自己教師付き音声認識モデルによる実験では、再構成されたMELDビデオはデータセットで提供される対応する発話とより密に一致している。
最後に、MELDリアライメントビデオの顔と音声情報に基づいて訓練された会話における感情認識モデルを作成し、視覚のみに基づくERCの最先端モデルよりも優れていることを示す。
これは、アクティブな話者検出が発話する話者から表情を抽出するのに有効であることを示し、現在使われている視覚的特徴よりも、顔はより有意義な視覚的な手がかりを提供することを示している。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder [20.814063371439904]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。