論文の概要: Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.07515v1
- Date: Mon, 09 Jun 2025 07:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.853447
- Title: Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition
- Title(参考訳): 話者識別可能なCTC:マルチ話者音声認識のためのCTCを用いた話者識別
- Authors: Asahi Sakuma, Hiroaki Sato, Ryuga Sugano, Tadashi Kumano, Yoshihiko Kawai, Tetsuji Ogawa,
- Abstract要約: 本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。
Speaker-Distinguishable CTC (SD-CTC) は、CTCの拡張であり、トークンとその対応する話者ラベルを各フレームに共同割り当てる。
SD-CTCとSOTを用いたマルチタスク学習は,SOTモデルの誤り率を26%削減し,補助情報に依存する最先端手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 8.775527128005136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for multi-talker automatic speech recognition without the need for auxiliary information. Serialized Output Training (SOT), a widely used approach, suffers from recognition errors due to speaker assignment failures. Although incorporating auxiliary information, such as token-level timestamps, can improve recognition accuracy, extracting such information from natural conversational speech remains challenging. To address this limitation, we propose Speaker-Distinguishable CTC (SD-CTC), an extension of CTC that jointly assigns a token and its corresponding speaker label to each frame. We further integrate SD-CTC into the SOT framework, enabling the SOT model to learn speaker distinction using only overlapping speech and transcriptions. Experimental comparisons show that multi-task learning with SD-CTC and SOT reduces the error rate of the SOT model by 26% and achieves performance comparable to state-of-the-art methods relying on auxiliary information.
- Abstract(参考訳): 本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。
広く使われているSOT(Serialized Output Training)は、話者割り当て障害による認識エラーに悩まされる。
トークンレベルのタイムスタンプなどの補助情報を組み込むことで認識精度が向上するが、自然な会話音声からそのような情報を抽出することは依然として困難である。
この制限に対処するため,各フレームにトークンと対応する話者ラベルを共同で割り当てるCTCの拡張であるSpeaker-Distinguishable CTC (SD-CTC)を提案する。
さらに、SD-CTCをSOTフレームワークに統合し、重なり合う音声と書き起こしのみを用いて、SOTモデルが話者の区別を学習できるようにする。
実験結果から,SD-CTCとSOTを用いたマルチタスク学習はSOTモデルの誤り率を26%削減し,補助情報に依存した最先端手法に匹敵する性能を達成した。
関連論文リスト
- SC-SOT: Conditioning the Decoder on Diarized Speaker Information for End-to-End Overlapped Speech Recognition [11.157709125869593]
E2EマルチストーカーASRのためのSC-SOT(Serialized Output Training)を提案する。
SC-SOTは、話者情報にデコーダを明示的に条件付け、「誰がいつ話したか」に関する詳細な情報を提供する。
論文 参考訳(メタデータ) (2025-06-15T00:37:27Z) - Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。