論文の概要: Dyadic Speech-based Affect Recognition using DAMI-P2C Parent-child
Multimodal Interaction Dataset
- arxiv url: http://arxiv.org/abs/2008.09207v1
- Date: Thu, 20 Aug 2020 20:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:59:32.372604
- Title: Dyadic Speech-based Affect Recognition using DAMI-P2C Parent-child
Multimodal Interaction Dataset
- Title(参考訳): DAMI-P2C親子マルチモーダルインタラクションデータセットを用いたDyadic Speech-based Affect Recognition
- Authors: Huili Chen and Yue Zhang and Felix Weninger and Rosalind Picard and
Cynthia Breazeal and Hae Won Park
- Abstract要約: 2人の話者による音声ストリームにおける各人の感情表現を認識するためのエンドツーエンドのディープラーニング手法を設計する。
提案手法は,対象話者の感情情報を含む領域に焦点を当てることが可能であることを示す。
- 参考スコア(独自算出の注目度): 29.858195646762297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech-based affect recognition of individuals in dyadic
conversation is a challenging task, in part because of its heavy reliance on
manual pre-processing. Traditional approaches frequently require hand-crafted
speech features and segmentation of speaker turns. In this work, we design
end-to-end deep learning methods to recognize each person's affective
expression in an audio stream with two speakers, automatically discovering
features and time regions relevant to the target speaker's affect. We integrate
a local attention mechanism into the end-to-end architecture and compare the
performance of three attention implementations -- one mean pooling and two
weighted pooling methods. Our results show that the proposed weighted-pooling
attention solutions are able to learn to focus on the regions containing target
speaker's affective information and successfully extract the individual's
valence and arousal intensity. Here we introduce and use a "dyadic affect in
multimodal interaction - parent to child" (DAMI-P2C) dataset collected in a
study of 34 families, where a parent and a child (3-7 years old) engage in
reading storybooks together. In contrast to existing public datasets for affect
recognition, each instance for both speakers in the DAMI-P2C dataset is
annotated for the perceived affect by three labelers. To encourage more
research on the challenging task of multi-speaker affect sensing, we make the
annotated DAMI-P2C dataset publicly available, including acoustic features of
the dyads' raw audios, affect annotations, and a diverse set of developmental,
social, and demographic profiles of each dyad.
- Abstract(参考訳): ディヤド会話における個人の自動音声認識は,手作業による前処理に重きを置き,困難な課題である。
伝統的なアプローチでは、手作りの音声特徴と話者の回転のセグメンテーションがしばしば必要となる。
本研究では,音声ストリームにおける各人の感情表現を2つの話者で認識し,対象話者の感情に関連する特徴や時間領域を自動的に発見する,エンドツーエンドのディープラーニング手法を提案する。
エンド・ツー・エンドのアーキテクチャにローカルアテンション機構を統合し、平均プールと2つの重み付きプーリングメソッドという3つのアテンション実装のパフォーマンスを比較する。
提案する重み付きプール型アテンションソリューションは,対象話者の感情情報を含む領域に焦点を絞って学習し,個人の価と覚醒強度を効果的に抽出できることを示す。
ここでは、34家族を対象にした「親子間相互作用におけるダイアディックな影響」データセット(DAMI-P2C)を導入、使用し、親と子(3-7歳)が一緒にストーリーブックを読む。
影響認識のための既存のパブリックデータセットとは対照的に、DAMI-P2Cデータセット内の両方の話者のインスタンスは、3つのラベルによる認識された影響に対してアノテートされる。
マルチスピーカーによるインフルエンサーセンシングの課題に関するさらなる研究を奨励するため、我々はアノテーション付きdami-p2cデータセットを公開し、dyadsの生オーディオの音響特徴、インフルエンサーアノテーション、各dyadの開発、社会的、人口統計プロファイルの多種多様なセットを含む。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。