論文の概要: SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06372v1
- Date: Fri, 08 Aug 2025 15:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.274744
- Title: SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models
- Title(参考訳): SpeakerLM:マルチモーダル大言語モデルによるエンドツーエンドのヴァーサタイル話者ダイアリゼーションと認識
- Authors: Han Yin, Yafeng Chen, Chong Deng, Luyao Cheng, Hui Wang, Chao-Hong Tan, Qian Chen, Wen Wang, Xiangang Li,
- Abstract要約: 話者ダイアリゼーションと認識タスクは、音声クリップ内で「誰がいつ何を話したか」を予測することを目的としている。
既存のSDRシステムは一般的に、話者ダイアリゼーション(SD)と自動音声認識(ASR)を組み合わせたカスケードフレームワークを採用している。
SpeakerLMは、SDとASRをエンドツーエンドで共同で実行するSDR用の統合マルチモーダル大言語モデルである。
- 参考スコア(独自算出の注目度): 20.73877943980867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Speaker Diarization and Recognition (SDR) task aims to predict "who spoke when and what" within an audio clip, which is a crucial task in various real-world multi-speaker scenarios such as meeting transcription and dialogue systems. Existing SDR systems typically adopt a cascaded framework, combining multiple modules such as speaker diarization (SD) and automatic speech recognition (ASR). The cascaded systems suffer from several limitations, such as error propagation, difficulty in handling overlapping speech, and lack of joint optimization for exploring the synergy between SD and ASR tasks. To address these limitations, we introduce SpeakerLM, a unified multimodal large language model for SDR that jointly performs SD and ASR in an end-to-end manner. Moreover, to facilitate diverse real-world scenarios, we incorporate a flexible speaker registration mechanism into SpeakerLM, enabling SDR under different speaker registration settings. SpeakerLM is progressively developed with a multi-stage training strategy on large-scale real data. Extensive experiments show that SpeakerLM demonstrates strong data scaling capability and generalizability, outperforming state-of-the-art cascaded baselines on both in-domain and out-of-domain public SDR benchmarks. Furthermore, experimental results show that the proposed speaker registration mechanism effectively ensures robust SDR performance of SpeakerLM across diverse speaker registration conditions and varying numbers of registered speakers.
- Abstract(参考訳): 話者ダイアリゼーション・アンド・認識(SDR)タスクは、音声クリップ内で「誰がいつ何を話したか」を予測することを目的としている。
既存のSDRシステムは一般的に、話者ダイアリゼーション(SD)や自動音声認識(ASR)といった複数のモジュールを組み合わせたカスケードフレームワークを採用している。
カスケードシステムは、エラーの伝搬、重複する音声の処理の難しさ、SDとASRのタスク間の相乗効果を探索するための共同最適化の欠如など、いくつかの制限に悩まされている。
これらの制約に対処するために,SDとASRをエンドツーエンドで共同で実行するSDR用の統合マルチモーダル大規模言語モデルであるSpeakerLMを導入する。
さらに, 多様な現実シナリオを実現するために, フレキシブルな話者登録機構をSpeakerLMに組み込むことにより, 話者登録設定の異なるSDRを実現する。
SpeakerLMは、大規模実データに対するマルチステージトレーニング戦略により、段階的に開発されている。
大規模な実験により、SpeakerLMは強力なデータスケーリング能力と一般化可能性を示し、ドメイン内およびドメイン外の両方のパブリックSDRベンチマークで最先端のカスケードベースラインを上回ります。
さらに, 実験結果から, 提案した話者登録機構は, 多様な話者登録条件と多様な登録話者数にまたがって, SpeakerLMの堅牢なSDR性能を効果的に保証することを示した。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation [23.895122319920997]
エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。
Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。
本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-01T17:55:09Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。