論文の概要: Utterance-Wise Meeting Transcription System Using Asynchronous
Distributed Microphones
- arxiv url: http://arxiv.org/abs/2007.15868v1
- Date: Fri, 31 Jul 2020 06:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:56:02.740396
- Title: Utterance-Wise Meeting Transcription System Using Asynchronous
Distributed Microphones
- Title(参考訳): 非同期分散マイクロホンを用いた発話会議記録システム
- Authors: Shota Horiguchi, Yusuke Fujita, Kenji Nagamatsu
- Abstract要約: 本稿では,非同期マイクロホンを用いた新しい音声書き起こしフレームワークを提案する。
音声同期、話者ダイアリゼーション、誘導音源分離を用いた発話音声強調、自動音声認識、重複低減で構成されている。
- 参考スコア(独自算出の注目度): 27.07568513025875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A novel framework for meeting transcription using asynchronous microphones is
proposed in this paper. It consists of audio synchronization, speaker
diarization, utterance-wise speech enhancement using guided source separation,
automatic speech recognition, and duplication reduction. Doing speaker
diarization before speech enhancement enables the system to deal with
overlapped speech without considering sampling frequency mismatch between
microphones. Evaluation on our real meeting datasets showed that our framework
achieved a character error rate (CER) of 28.7 % by using 11 distributed
microphones, while a monaural microphone placed on the center of the table had
a CER of 38.2 %. We also showed that our framework achieved CER of 21.8 %,
which is only 2.1 percentage points higher than the CER in headset
microphone-based transcription.
- Abstract(参考訳): 本稿では,非同期マイクロホンを用いた新しい音声書き起こしフレームワークを提案する。
音声同期、話者ダイアリゼーション、誘導音源分離を用いた発話音声強調、自動音声認識、重複低減で構成されている。
音声強調の前に話者ダイアリゼーションを行うことで、マイクロホン間のサンプリング周波数ミスマッチを考慮せずに重複音声を処理することができる。
実際の会議データセットから,11個の分散マイクロホンを用いて28.7%の文字誤り率(CER)を達成し,テーブル中央のモノラルマイクロホンは38.2%のCERを示した。
また,本フレームワークは21.8 %のcerを達成し,ヘッドセット用マイクロホンによる音声認識では2.1ポイントの精度を示した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Mic2Mic: Using Cycle-Consistent Generative Adversarial Networks to
Overcome Microphone Variability in Speech Systems [21.60701279013914]
我々は,Mic2Micを提案する。Mic2Micは機械学習システムコンポーネントで,音声モデルの推論パイプラインに留まり,マイクロホン固有の要因による音声データの変動をリアルタイムで低減する。
実験の結果、Mic2Micは2つの一般的な音声タスクにおいて、マイクロホンの可変性によって失われる精度の66%から89%を回復できることがわかった。
論文 参考訳(メタデータ) (2020-03-27T14:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。