論文の概要: RescueSpeech: A German Corpus for Speech Recognition in Search and
Rescue Domain
- arxiv url: http://arxiv.org/abs/2306.04054v3
- Date: Mon, 25 Sep 2023 08:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:21:26.630989
- Title: RescueSpeech: A German Corpus for Speech Recognition in Search and
Rescue Domain
- Title(参考訳): rescuespeech: search and rescue domainにおけるドイツ語音声認識コーパス
- Authors: Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova,
Josef van Genabith
- Abstract要約: 音声認識は、騒々しく残響な環境ではまだ難しい。
われわれはRescueSpeechというドイツの音声データセットを作成した。
我々の研究は、この挑戦的なシナリオにおける最先端の手法によって達成されたパフォーマンスは、まだ許容できるレベルには達していないことを強調している。
- 参考スコア(独自算出の注目度): 20.07933161385449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advancements in speech recognition, there are still
difficulties in accurately transcribing conversational and emotional speech in
noisy and reverberant acoustic environments. This poses a particular challenge
in the search and rescue (SAR) domain, where transcribing conversations among
rescue team members is crucial to support real-time decision-making. The
scarcity of speech data and associated background noise in SAR scenarios make
it difficult to deploy robust speech recognition systems. To address this
issue, we have created and made publicly available a German speech dataset
called RescueSpeech. This dataset includes real speech recordings from
simulated rescue exercises. Additionally, we have released competitive training
recipes and pre-trained models. Our study highlights that the performance
attained by state-of-the-art methods in this challenging scenario is still far
from reaching an acceptable level.
- Abstract(参考訳): 近年の音声認識の進歩にもかかわらず、雑音環境や残響環境において、会話音声や感情音声の正確な書き起こしはいまだに困難である。
これは、救助チームメンバー間の会話を翻訳することが、リアルタイムの意思決定をサポートするために不可欠である、検索と救助(SAR)ドメインにおいて、特に課題となる。
SARシナリオにおける音声データの不足と背景雑音により,ロバスト音声認識システムの展開が困難になる。
この問題に対処するため、RescueSpeechというドイツの音声データセットを作成し公開しました。
本データセットは、模擬救助演習からの実際の音声記録を含む。
さらに、競争力のあるトレーニングレシピと事前トレーニングモデルをリリースしました。
我々の研究は、この困難なシナリオにおいて最先端のメソッドによって達成されたパフォーマンスは、まだ許容できるレベルには程遠いことを強調している。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Silent versus modal multi-speaker speech recognition from ultrasound and
video [43.919073642794324]
舌の超音波画像と唇の映像から多話者音声認識について検討した。
モーダル音声からの画像データの訓練を行い,2つの発話モード(無声モードとモーダル音声)のマッチングテストセットの評価を行った。
画像データからの無声音声認識はモーダル音声認識に比べて低調であり,訓練とテストの発話モードミスマッチが原因と考えられる。
論文 参考訳(メタデータ) (2021-02-27T21:34:48Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。