論文の概要: Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges
- arxiv url: http://arxiv.org/abs/2507.18161v1
- Date: Thu, 24 Jul 2025 07:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.214314
- Title: Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges
- Title(参考訳): 遠隔会話音声認識の最近の動向: CHiME-7 と 8 DASR の課題を振り返って
- Authors: Samuele Cornell, Christoph Boeddeker, Taejin Park, He Huang, Desh Raj, Matthew Wiesner, Yoshiki Masuyama, Xuankai Chang, Zhong-Qiu Wang, Stefano Squartini, Paola Garcia, Shinji Watanabe,
- Abstract要約: CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
- 参考スコア(独自算出の注目度): 58.80034860169605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CHiME-7 and 8 distant speech recognition (DASR) challenges focus on multi-channel, generalizable, joint automatic speech recognition (ASR) and diarization of conversational speech. With participation from 9 teams submitting 32 diverse systems, these challenges have contributed to state-of-the-art research in the field. This paper outlines the challenges' design, evaluation metrics, datasets, and baseline systems while analyzing key trends from participant submissions. From this analysis it emerges that: 1) Most participants use end-to-end (e2e) ASR systems, whereas hybrid systems were prevalent in previous CHiME challenges. This transition is mainly due to the availability of robust large-scale pre-trained models, which lowers the data burden for e2e-ASR. 2) Despite recent advances in neural speech separation and enhancement (SSE), all teams still heavily rely on guided source separation, suggesting that current neural SSE techniques are still unable to reliably deal with complex scenarios and different recording setups. 3) All best systems employ diarization refinement via target-speaker diarization techniques. Accurate speaker counting in the first diarization pass is thus crucial to avoid compounding errors and CHiME-8 DASR participants especially focused on this part. 4) Downstream evaluation via meeting summarization can correlate weakly with transcription quality due to the remarkable effectiveness of large-language models in handling errors. On the NOTSOFAR-1 scenario, even systems with over 50\% time-constrained minimum permutation WER can perform roughly on par with the most effective ones (around 11\%). 5) Despite recent progress, accurately transcribing spontaneous speech in challenging acoustic environments remains difficult, even when using computationally intensive system ensembles.
- Abstract(参考訳): CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
32の多様なシステムを提出する9チームによる参加によって、これらの課題はこの分野における最先端の研究に寄与している。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
この分析から、次のようなことが浮かび上がっています。
1) エンド・ツー・エンド(e2e)のASRシステムを使用する場合が多いが, 従来のCHiME課題ではハイブリッドシステムが一般的であった。
この移行は主に、e2e-ASRのデータ負担を低減させる、堅牢な大規模事前訓練モデルの可用性のためである。
2) ニューラルスピーチ分離と強化(SSE)の最近の進歩にもかかわらず、すべてのチームは依然としてガイド付きソース分離に大きく依存しており、現在のニューラルSSE技術は複雑なシナリオと異なる記録設定を確実に扱うことができないことを示唆している。
3) すべての最良システムは, ターゲットスピーカダイアリゼーション技術を用いてダイアリゼーションを改良する。
したがって、第1ダイアリゼーションパスにおける正確な話者カウントは、複合的なエラーを避けるために重要であり、特にこの部分に焦点を当てたCHiME-8 DASR参加者は、この点に注意を払っている。
4) 一致要約による下流評価は, 誤り処理における大規模モデルの顕著な有効性により, 転写品質と弱相関する可能性がある。
NOTSOFAR-1のシナリオでは、50\%以上の時間制約最小置換を持つシステムでさえ、WERは最も効果的なシステム(約11\%)とほぼ同等に動作することができる。
5)近年の進歩にもかかわらず,計算集約的なシステムアンサンブルを用いても,難易度の高い音響環境下での自発音声の正確な書き起こしは困難である。
関連論文リスト
- Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio [9.791181119162648]
モナラ多話者自動音声認識(ASR)は、データ不足と、個々の話者に単語を認識・帰属させることが本質的に困難であるため、依然として困難である。
近年、カスケードシステムからエンド・ツー・エンド(E2E)アーキテクチャへの移行が進み、誤りの伝播が減少し、音声コンテンツと話者アイデンティティの相乗効果が向上した。
この調査は、マルチスピーカーASRのためのE2Eニューラルアプローチの体系的な分類を提供し、最近の進歩と比較分析を強調している。
論文 参考訳(メタデータ) (2025-05-16T08:21:59Z) - Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文 参考訳(メタデータ) (2024-05-10T00:16:58Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。