論文の概要: BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition
- arxiv url: http://arxiv.org/abs/2505.00059v1
- Date: Wed, 30 Apr 2025 14:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.12785
- Title: BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition
- Title(参考訳): BERSting at the Screams: ABenchmark for Distanced, Emotional and Shouted Speech Recognition (英語)
- Authors: Paige Tuttösí, Mantaj Dhillon, Luna Sang, Shane Eastwood, Poorvi Bhatia, Quang Minh Dinh, Avni Kapoor, Yewon Jin, Angelica Lim,
- Abstract要約: 本稿では,B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) データセットを提案する。
データセットには、地域のアクセントと非ネイティブアクセントの異なる98人のアクターから約4時間の英会話が含まれている。
ASRタスクとSERタスクの初期ベンチマークを行い、ASRは距離とシャウトレベルの増大とともに劣化し、意図した感情に応じて様々なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.5224038339798622
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Some speech recognition tasks, such as automatic speech recognition (ASR), are approaching or have reached human performance in many reported metrics. Yet, they continue to struggle in complex, real-world, situations, such as with distanced speech. Previous challenges have released datasets to address the issue of distanced ASR, however, the focus remains primarily on distance, specifically relying on multi-microphone array systems. Here we present the B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) dataset. The dataset contains almost 4 hours of English speech from 98 actors with varying regional and non-native accents. The data was collected on smartphones in the actors homes and therefore includes at least 98 different acoustic environments. The data also includes 7 different emotion prompts and both shouted and spoken utterances. The smartphones were places in 19 different positions, including obstructions and being in a different room than the actor. This data is publicly available for use and can be used to evaluate a variety of speech recognition tasks, including: ASR, shout detection, and speech emotion recognition (SER). We provide initial benchmarks for ASR and SER tasks, and find that ASR degrades both with an increase in distance and shout level and shows varied performance depending on the intended emotion. Our results show that the BERSt dataset is challenging for both ASR and SER tasks and continued work is needed to improve the robustness of such systems for more accurate real-world use.
- Abstract(参考訳): いくつかの音声認識タスク、例えば自動音声認識(ASR)は、多くの報告された指標において人間のパフォーマンスに近づいているか、到達している。
しかし、彼らは遠く離れたスピーチのような複雑な現実世界の状況に苦戦し続けている。
それまでの課題では、距離のあるASRの問題に対処するデータセットがリリースされていたが、特にマルチマイクロフォンアレイシステムに依存して、主に距離に重点を置いている。
ここでは、B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) データセットを示す。
データセットには、地域のアクセントと非ネイティブアクセントの異なる98人のアクターから約4時間の英会話が含まれている。
データはアクターハウスのスマートフォンで収集され、少なくとも98種類の音響環境が含まれています。
データは、7つの異なる感情のプロンプトと、叫び声と発声の両方を含んでいる。
スマートフォンは19の異なる位置にあり、障害があり、俳優とは別の部屋に置かれていた。
このデータは一般に利用可能であり、ASR、シャウト検出、音声感情認識(SER)など、さまざまな音声認識タスクを評価するために使用できる。
ASRタスクとSERタスクの初期ベンチマークを行い、ASRは距離とシャウトレベルの増大とともに劣化し、意図した感情に応じて様々なパフォーマンスを示す。
以上の結果から, BERStデータセットはASRタスクとSERタスクの両方において困難であり, より正確な実世界利用を実現するためには, システムの堅牢性を向上させるための継続的な作業が必要であることが示唆された。
関連論文リスト
- ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。
その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2024-09-18T15:03:04Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。