論文の概要: Automatic Detection of Expressed Emotion from Five-Minute Speech
Samples: Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2203.17242v1
- Date: Wed, 30 Mar 2022 16:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 13:18:55.184988
- Title: Automatic Detection of Expressed Emotion from Five-Minute Speech
Samples: Challenges and Opportunities
- Title(参考訳): 5分間音声サンプルからの表情の自動検出:課題と機会
- Authors: Bahman Mirheidari, Andr\'e Bittar, Nicholas Cummins, Johnny Downs,
Helen L. Fisher, Heidi Christensen
- Abstract要約: 表現的感情(EE)の自動認識に関する新しい可能性研究について述べる。
EEは、親戚や家族について自由に話す介護者に基づく家族環境の概念である。
本稿では,EE の重要な構成要素である暖かさのテクスチャ度を音響的特徴とテキスト的特徴から自動決定する手法について述べる。
- 参考スコア(独自算出の注目度): 20.08301180369592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel feasibility study on the automatic recognition of
Expressed Emotion (EE), a family environment concept based on caregivers
speaking freely about their relative/family member. We describe an automated
approach for determining the \textit{degree of warmth}, a key component of EE,
from acoustic and text features acquired from a sample of 37 recorded
interviews. These recordings, collected over 20 years ago, are derived from a
nationally representative birth cohort of 2,232 British twin children and were
manually coded for EE. We outline the core steps of extracting usable
information from recordings with highly variable audio quality and assess the
efficacy of four machine learning approaches trained with different
combinations of acoustic and text features. Despite the challenges of working
with this legacy data, we demonstrated that the degree of warmth can be
predicted with an $F_{1}$-score of \textbf{61.5\%}. In this paper, we summarise
our learning and provide recommendations for future work using real-world
speech samples.
- Abstract(参考訳): 本研究では,親戚や家族について自由に話す介護者を対象とした家族環境概念である表現的感情(EE)の自動認識の実現可能性について述べる。
録音された37のインタビューのサンプルから得られた音響的特徴とテキスト的特徴から、eeのキーコンポーネントである \textit{degree of warmth} を決定するための自動化アプローチについて述べる。
20年以上前に収集されたこの録音は、英国で2,232人の双子の子供からなる全国的に代表される出生コホートから生まれたものだ。
音響特性とテキスト特性の異なる4つの機械学習手法の有効性を評価するため,高可変音質の録音から使用可能な情報を抽出するコアステップを概説した。
このレガシーデータを扱うことの難しさにもかかわらず、f_{1}$-score of \textbf{61.5\%} で暖かさの程度を予測できることを実証した。
本稿では,学習を要約し,実世界の音声サンプルを用いて今後の研究を推奨する。
関連論文リスト
- This Paper Had the Smartest Reviewers -- Flattery Detection Utilising an Audio-Textual Transformer-Based Approach [42.27824690168642]
フラタリー(英: Flattery)は、人間のコミュニケーションにおいて重要な側面であり、社会的結合を促進し、知覚を形作り、戦略的賞賛と賞賛を通じて行動に影響を与える。
そこで本研究では,20時間の音声と学習機械学習モデルを用いて,フラットな自動検出を行う新しい音声テキストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:57:02Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Addressing Cold Start Problem for End-to-end Automatic Speech Scoring [6.528274916429686]
本研究は,新しい質問文脈における音声スコアリングシステムの性能の顕著な低下に注目した。
本稿では,1)埋め込みの促進,2)BERTモデルやCLIPモデルを用いた質問コンテキスト埋め込み,3)事前学習した音響モデルの選択などによって問題を緩和する。
論文 参考訳(メタデータ) (2023-06-25T18:48:21Z) - FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。
我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文 参考訳(メタデータ) (2023-06-16T12:44:10Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-14T11:17:52Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。