論文の概要: "This is Houston. Say again, please". The Behavox system for the
Apollo-11 Fearless Steps Challenge (phase II)
- arxiv url: http://arxiv.org/abs/2008.01504v1
- Date: Tue, 4 Aug 2020 13:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:00:18.269640
- Title: "This is Houston. Say again, please". The Behavox system for the
Apollo-11 Fearless Steps Challenge (phase II)
- Title(参考訳): 「これはヒューストンです。もう一度言ってください」
アポロ11号Fearless Steps ChallengeのためのBehavoxシステム(フェーズII)
- Authors: Arseniy Gorin, Daniil Kulko, Steven Grima, Alex Glasman
- Abstract要約: 音声活動検出(SAD)、話者ダイアリゼーション(SD)、およびBehavoxチームによるFearless Steps Challenge(FSC-2)のための自動音声認識(ASR)実験について述べる。
比較的少量のラベル付きデータ、多様な話者とチャネル歪み、特定の語彙と話し方により、このデータを含むシステムではエラー率が高くなった。
全システムについて,FSC-2ベースラインシステムと比較して大幅に性能が向上したことを報告した。
- 参考スコア(独自算出の注目度): 3.3263205689999453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the speech activity detection (SAD), speaker diarization (SD),
and automatic speech recognition (ASR) experiments conducted by the Behavox
team for the Interspeech 2020 Fearless Steps Challenge (FSC-2). A relatively
small amount of labeled data, a large variety of speakers and channel
distortions, specific lexicon and speaking style resulted in high error rates
on the systems which involved this data. In addition to approximately 36 hours
of annotated NASA mission recordings, the organizers provided a much larger but
unlabeled 19k hour Apollo-11 corpus that we also explore for semi-supervised
training of ASR acoustic and language models, observing more than 17% relative
word error rate improvement compared to training on the FSC-2 data only. We
also compare several SAD and SD systems to approach the most difficult tracks
of the challenge (track 1 for diarization and ASR), where long 30-minute audio
recordings are provided for evaluation without segmentation or speaker
information. For all systems, we report substantial performance improvements
compared to the FSC-2 baseline systems, and achieved a first-place ranking for
SD and ASR and fourth-place for SAD in the challenge.
- Abstract(参考訳): 音声活動検出(SAD)、話者ダイアリゼーション(SD)、およびBehavoxチームによるFearless Steps Challenge(FSC-2)のための自動音声認識(ASR)実験について述べる。
比較的少量のラベル付きデータ、多種多様な話者とチャネルの歪み、特定のレキシコンとスピーキングスタイルは、このデータを含むシステムに高いエラー率をもたらした。
約36時間のアノテートされたNASAのミッション記録に加えて、オーガナイザはより大きくてラベルなしの19k時間アポロ11コーパスを提供し、AFR音響モデルと言語モデルの半教師付きトレーニングを探索し、FSC-2データのみのトレーニングに比べて17%以上の相対的な単語エラー率の改善を観測した。
また、複数のSADとSDシステムを比較し、課題の最も難しいトラック(ダイアリゼーション用トラック1とASR用トラック1)にアプローチし、長い30分間の音声記録をセグメント化や話者情報なしで評価する。
全システムについて、FSC-2ベースラインシステムと比較して大幅な性能向上を報告し、SDとASRでは1位、SADでは4位となった。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - AG-LSEC: Audio Grounded Lexical Speaker Error Correction [9.54540722574194]
話者ダイアリゼーション(SD)システムは、通常音声ベースで、従来の音声転写パイプラインでは、ASRシステムとは独立して動作する。
本稿では,Lexical Speaker Error Correction (LSEC) システムを,既存のSDパイプラインから直接の話者スコアで拡張し,音響的に構築することを提案する。
このアプローチは、オーディオベースのSD、ASRシステムに対して25-40%の範囲でWDERを大幅に削減し、RT03-CTS、コールホーム・アメリカン・イングリッシュ、フィッシャーのデータセットに対して15-25%の差でLSECシステムを上回った。
論文 参考訳(メタデータ) (2024-06-25T04:20:49Z) - The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.460119283649913]
データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-13T17:32:32Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection
and Role Identification of Air-Traffic Communications [2.270534915073284]
音声活動検出(SAD)またはダイアリゼーションシステムは失敗し、2つ以上の単一話者セグメントが同一記録に含まれる。
我々は、SADモジュールのセグメンテーションをBERTモデルと組み合わせて、ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。
提案したモデルはATCO/パイロットで最大0.90/0.95 F1スコアに達する。
論文 参考訳(メタデータ) (2021-10-12T07:25:12Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III [7.047338765733677]
本稿では、Fearless Steps Challengeの最新のフェーズにおけるオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練することができる。
実験では、単一のCPUマシンを使用して、約0.002のリアルタイム係数を持つ開発データセットと評価データセットの両方で、競合する精度を示す。
論文 参考訳(メタデータ) (2021-06-21T12:55:51Z) - Automatic Speech Recognition Benchmark for Air-Traffic Communications [1.175956452196938]
CleanSky EC-H2020 ATCO2は、航空空間からATCo音声データを収集、整理、自動処理するASRベースのプラットフォームを開発することを目的としている。
アクセントによるアクセント間の欠陥は、データ量によって最小限に抑えられ、ATC環境でシステムを実現することができる。
論文 参考訳(メタデータ) (2020-06-18T06:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。