論文の概要: Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition
- arxiv url: http://arxiv.org/abs/2510.03723v1
- Date: Sat, 04 Oct 2025 08:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.214355
- Title: Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition
- Title(参考訳): エンド・ツー・エンドマルチ話者音声認識のためのダイアリゼーション条件付きウィスパーの適応
- Authors: Martin Kocour, Martin Karafiat, Alexander Polok, Dominik Klement, Lukáš Burget, Jan Černocký,
- Abstract要約: ターゲット話者モデリングとシリアライズされた出力訓練(SOT)を組み合わせた多話者音声認識のための話者分散(SA)モデルを提案する。
提案手法では,Diarization-Conditioned Whisper(DiCoW)エンコーダを用いて,単一表現にデコードして共有デコーダに渡されるターゲットスピーカの埋め込みを抽出する。
実験により、このモデルは既存のSOTベースのアプローチよりも優れており、マルチトーカー混合物上でのDiCoWを上回っていることが示された。
- 参考スコア(独自算出の注目度): 39.01533517274661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a speaker-attributed (SA) Whisper-based model for multi-talker speech recognition that combines target-speaker modeling with serialized output training (SOT). Our approach leverages a Diarization-Conditioned Whisper (DiCoW) encoder to extract target-speaker embeddings, which are concatenated into a single representation and passed to a shared decoder. This enables the model to transcribe overlapping speech as a serialized output stream with speaker tags and timestamps. In contrast to target-speaker ASR systems such as DiCoW, which decode each speaker separately, our approach performs joint decoding, allowing the decoder to condition on the context of all speakers simultaneously. Experiments show that the model outperforms existing SOT-based approaches and surpasses DiCoW on multi-talker mixtures (e.g., LibriMix).
- Abstract(参考訳): ターゲット話者モデルとシリアライズされた出力訓練(SOT)を組み合わせた多話者音声認識のための話者対応(SA)ウィスパーモデルを提案する。
提案手法では,Diarization-Conditioned Whisper(DiCoW)エンコーダを用いて,単一表現に結合して共有デコーダに渡されるターゲット話者埋め込みを抽出する。
これにより、重なり合う音声を話者タグとタイムスタンプでシリアライズされた出力ストリームとして書き起こすことができる。
各話者を個別にデコードするDiCoWのようなターゲット話者ASRシステムとは対照的に、我々の手法は共同デコードを行い、デコーダは全ての話者の文脈で同時に条件を定めることができる。
実験により、このモデルは既存のSOTベースのアプローチよりも優れており、マルチトーカーの混合(例: LibriMix)でDiCoWを上回っていることが示された。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。