論文の概要: A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings
- arxiv url: http://arxiv.org/abs/2203.16834v2
- Date: Fri, 1 Apr 2022 04:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 11:25:31.153549
- Title: A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings
- Title(参考訳): 多人数会議における話者属性自動音声認識の比較検討
- Authors: Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie
- Abstract要約: 会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
- 参考スコア(独自算出の注目度): 53.120885867427305
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we conduct a comparative study on speaker-attributed automatic
speech recognition (SA-ASR) in the multi-party meeting scenario, a topic with
increasing attention in meeting rich transcription. Specifically, three
approaches are evaluated in this study. The first approach, FD-SOT, consists of
a frame-level diarization model to identify speakers and a multi-talker ASR to
recognize utterances. The speaker-attributed transcriptions are obtained by
aligning the diarization results and recognized hypotheses. However, such an
alignment strategy may suffer from erroneous timestamps due to the modular
independence, severely hindering the model performance. Therefore, we propose
the second approach, WD-SOT, to address alignment errors by introducing a
word-level diarization model, which can get rid of such timestamp alignment
dependency. To further mitigate the alignment issues, we propose the third
approach, TS-ASR, which trains a target-speaker separation module and an ASR
module jointly. By comparing various strategies for each SA-ASR approach,
experimental results on a real meeting scenario corpus, AliMeeting, reveal that
the WD-SOT approach achieves 10.7% relative reduction on averaged
speaker-dependent character error rate (SD-CER), compared with the FD-SOT
approach. In addition, the TS-ASR approach also outperforms the FD-SOT approach
and brings 16.5% relative average SD-CER reduction.
- Abstract(参考訳): 本稿では,多人数会議シナリオにおける話者適応型自動音声認識(SA-ASR)の比較研究を行う。
特に,本研究では3つのアプローチが評価されている。
最初のアプローチであるFD-SOTは、話者を識別するフレームレベルのダイアリゼーションモデルと、発話を認識するマルチストーカーASRで構成されている。
ダイアリゼーション結果と認識仮説とを整列させて話者対応転写を得る。
しかし、このようなアライメント戦略はモジュラー独立性によって誤ったタイムスタンプに陥り、モデルの性能を著しく阻害する可能性がある。
そこで本研究では,単語レベルのダイアリゼーションモデルを導入することでアライメントエラーに対処するための第2の手法であるwd-sotを提案する。
さらにアライメント問題を緩和するために,ターゲット話者分離モジュールとASRモジュールを共同で訓練する第3のアプローチTS-ASRを提案する。
各SA-ASR手法について,実会議シナリオコーパス(AliMeeting)を用いた実験結果から,平均話者依存型文字誤り率(SD-CER)を10.7%削減できることが判明した。
さらに、TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
関連論文リスト
- MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction [23.812838405442953]
本稿では,モダリティ間の共有表現を学習するための新しいマルチモーダル融合法を提案する。
実験の結果、MF-AED-AECはベースラインモデルよりも4.1%優れていた。
論文 参考訳(メタデータ) (2024-01-24T06:55:55Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - Cross-utterance ASR Rescoring with Graph-based Label Propagation [14.669201156515891]
本稿では,グラフに基づくラベルの伝搬を反映した新しいASR N-best仮説を提案する。
従来のニューラルネットワークモデル(LM)をベースとしたASR再構成/格付けモデルとは対照的に,本手法は音響情報に重点を置いている。
論文 参考訳(メタデータ) (2023-03-27T12:08:05Z) - Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。
提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文 参考訳(メタデータ) (2023-02-24T00:01:41Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。