Fugu-MT 論文翻訳(概要): BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

論文の概要: BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR

arxiv url: http://arxiv.org/abs/2305.13716v3
Date: Thu, 5 Oct 2023 11:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:21:53.678498
Title: BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR
Title（参考訳）: BA-SOT:マルチ話者ASRのための境界対応シリアライズアウトプットトレーニング
Authors: Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie
Abstract要約: 話者の頻繁な変化は、話者の変化を予測するのを難しくする。境界対応型直列出力訓練(BA-SOT)を提案する。オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
参考スコア（独自算出の注目度）: 54.23941663326509
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make speaker change prediction difficult. To address this, we propose boundary-aware serialized output training (BA-SOT), which explicitly incorporates boundary knowledge into the decoder via a speaker change detection task and boundary constraint loss. We also introduce a two-stage connectionist temporal classification (CTC) strategy that incorporates token-level SOT CTC to restore temporal context information. Besides typical character error rate (CER), we introduce utterance-dependent character error rate (UD-CER) to further measure the precision of speaker change prediction. Compared to original SOT, BA-SOT reduces CER/UD-CER by 5.1%/14.0%, and leveraging a pre-trained ASR model for BA-SOT model initialization further reduces CER/UD-CER by 8.4%/19.9%.
Abstract（参考訳）: 最近提案されたシリアライズアウトプットトレーニング(SOT)は、特別なトークンで分離された話者書き起こしを生成することで、マルチストーカー自動音声認識(ASR)を単純化する。しかし、頻繁な話者変化は話者変化予測を難しくする。そこで本稿では,話者変化検出タスクと境界制約損失による境界知識をデコーダに明示的に組み込んだ境界対応直列出力トレーニング(BA-SOT)を提案する。また、トークンレベルSOT CTCを組み込んだ2段階接続型時間分類(CTC)戦略を導入し、時間的文脈情報を復元する。典型的な文字誤り率(CER)に加えて,話者変化予測の精度を高めるために発話依存文字誤り率(UD-CER)を導入する。 SOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減し、BA-SOTモデルの初期化のために事前訓練されたASRモデルを活用することで、CER/UD-CERをさらに8.4%/19.9%削減する。

関連論文リスト

Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition [8.775527128005136]
本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。 Speaker-Distinguishable CTC (SD-CTC) は、CTCの拡張であり、トークンとその対応する話者ラベルを各フレームに共同割り当てる。 SD-CTCとSOTを用いたマルチタスク学習は,SOTモデルの誤り率を26%削減し,補助情報に依存する最先端手法に匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-06-09T07:43:43Z)
SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models [15.098665255729507]
音響ダイアリザからLLMへよりきめ細かな情報を提供するための新しい音響条件付け手法を提案する。提案手法は,Fisher,Callhome,RT03-CTSデータセットの話者誤り率を24～43%削減する。
論文参考訳（メタデータ） (2025-01-14T20:24:12Z)
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文参考訳（メタデータ） (2024-09-19T01:26:33Z)
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。現在、セパレータはASR性能を劣化させるアーティファクトを生産している。本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文参考訳（メタデータ） (2024-06-13T08:20:58Z)
Augmenting Transformer-Transducer Based Speaker Change Detection With Token-Level Training Loss [15.304831835680847]
本稿では,Transformer-Transducer (T-T) に基づく話者変化検出(SCD) の性能を向上させる新しいトークンベースのトレーニング戦略を提案する。学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。
論文参考訳（メタデータ） (2022-11-11T21:09:58Z)
Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。 9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文参考訳（メタデータ） (2022-09-13T15:10:41Z)
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文参考訳（メタデータ） (2022-03-30T21:42:00Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文参考訳（メタデータ） (2022-02-18T03:26:02Z)
ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。 Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文参考訳（メタデータ） (2022-02-02T21:17:14Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文参考訳（メタデータ） (2020-05-25T14:42:26Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。