論文の概要: Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.07515v1
- Date: Mon, 09 Jun 2025 07:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.853447
- Title: Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition
- Title(参考訳): 話者識別可能なCTC:マルチ話者音声認識のためのCTCを用いた話者識別
- Authors: Asahi Sakuma, Hiroaki Sato, Ryuga Sugano, Tadashi Kumano, Yoshihiko Kawai, Tetsuji Ogawa,
- Abstract要約: 本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。
Speaker-Distinguishable CTC (SD-CTC) は、CTCの拡張であり、トークンとその対応する話者ラベルを各フレームに共同割り当てる。
SD-CTCとSOTを用いたマルチタスク学習は,SOTモデルの誤り率を26%削減し,補助情報に依存する最先端手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 8.775527128005136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for multi-talker automatic speech recognition without the need for auxiliary information. Serialized Output Training (SOT), a widely used approach, suffers from recognition errors due to speaker assignment failures. Although incorporating auxiliary information, such as token-level timestamps, can improve recognition accuracy, extracting such information from natural conversational speech remains challenging. To address this limitation, we propose Speaker-Distinguishable CTC (SD-CTC), an extension of CTC that jointly assigns a token and its corresponding speaker label to each frame. We further integrate SD-CTC into the SOT framework, enabling the SOT model to learn speaker distinction using only overlapping speech and transcriptions. Experimental comparisons show that multi-task learning with SD-CTC and SOT reduces the error rate of the SOT model by 26% and achieves performance comparable to state-of-the-art methods relying on auxiliary information.
- Abstract(参考訳): 本稿では,補助情報を必要としない多話者自動音声認識のための新しい枠組みを提案する。
広く使われているSOT(Serialized Output Training)は、話者割り当て障害による認識エラーに悩まされる。
トークンレベルのタイムスタンプなどの補助情報を組み込むことで認識精度が向上するが、自然な会話音声からそのような情報を抽出することは依然として困難である。
この制限に対処するため,各フレームにトークンと対応する話者ラベルを共同で割り当てるCTCの拡張であるSpeaker-Distinguishable CTC (SD-CTC)を提案する。
さらに、SD-CTCをSOTフレームワークに統合し、重なり合う音声と書き起こしのみを用いて、SOTモデルが話者の区別を学習できるようにする。
実験結果から,SD-CTCとSOTを用いたマルチタスク学習はSOTモデルの誤り率を26%削減し,補助情報に依存した最先端手法に匹敵する性能を達成した。
関連論文リスト
- Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。