論文の概要: LibriConvo: Simulating Conversations from Read Literature for ASR and Diarization
- arxiv url: http://arxiv.org/abs/2510.23320v1
- Date: Mon, 27 Oct 2025 13:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:22.02054
- Title: LibriConvo: Simulating Conversations from Read Literature for ASR and Diarization
- Title(参考訳): LibriConvo: ASRとダイアリゼーションのための読み書きから会話をシミュレートする
- Authors: Máté Gedeon, Péter Mihajlik,
- Abstract要約: 話者認識型会話シミュレーション(SASC)に基づくマルチ話者対話データセットLibriConvoを紹介する。
意味的に切り離された発話に大きく依存する以前のリソースとは異なり、LibriConvoはセマンティックコヒーレンスとリアルな会話のタイミングを保証する。
データセットは、1,496の対話に830のユニークな話者を持つ240.1時間で構成され、頑健な評価のために話者の不一致な方法で分割される。
- 参考スコア(独自算出の注目度): 1.0251581485267474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LibriConvo, a simulated multi-speaker conversational dataset based on speaker-aware conversation simulation (SASC), designed to support training and evaluation of speaker diarization and automatic speech recognition (ASR) systems. Unlike prior resources that mostly rely on semantically disconnected utterances and implausible temporal gaps, LibriConvo ensures semantic coherence and realistic conversational timing. Our pipeline leverages CallHome with external VAD for reliable boundaries, applies compression to reduce unnaturally long silences, and organizes LibriTTS utterances by book to maintain contextual consistency. Acoustic realism is enhanced via a novel room impulse response selection procedure that ranks speaker-microphone configurations by spatial plausibility, balancing realism and diversity. The dataset comprises 240.1 hours across 1,496 dialogues with 830 unique speakers, split in a speaker-disjoint manner for robust evaluation. Baselines show that the sortformer model outperforms the pyannote pipeline in diarization, while a fine-tuned Fast Conformer-CTC XLarge with Serialized Output Training achieves 7.29\% WER for ASR, surpassing zero-shot Whisper-large-v3. LibriConvo provides a valuable resource for advancing multi-speaker speech processing research with realistic conversational dynamics and controlled experimental conditions.
- Abstract(参考訳): 本稿では,話者認識対話シミュレーション(SASC)に基づくマルチ話者対話データセットLibriConvoを紹介し,話者ダイアリゼーションと自動音声認識(ASR)システムの訓練と評価を支援する。
意味的に切り離された発話と不可解な時間的ギャップに依存する従来のリソースとは異なり、LibriConvoはセマンティックコヒーレンスとリアルな会話のタイミングを保証する。
我々のパイプラインは、信頼性のあるバウンダリに外部VADを併用したCallHomeを活用し、非自然に長い沈黙を減らすために圧縮を適用し、コンテキスト整合性を維持するために本でLibriTTS発声を整理する。
音響リアリズムは、空間的可視性、リアリズムと多様性のバランスをとることで、話者とマイクロフォンの構成をランク付けする新しい部屋インパルス応答選択手順によって強化される。
データセットは、1,496の対話に830のユニークな話者を持つ240.1時間で構成され、頑健な評価のために話者の不一致な方法で分割される。
ベースラインでは、ソートフォーマーモデルはダイアリゼーションにおいてピアンノートパイプラインよりも優れており、微調整されたFast Conformer-CTC XLargeとシリアライズアウトプットトレーニングは、0ショットのWhisper-large-v3を上回る7.29\%のWERを達成した。
LibriConvoは、現実的な会話力学と制御された実験条件を用いて、多話者音声処理研究を進めるための貴重なリソースを提供する。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。
既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。
この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文 参考訳(メタデータ) (2023-12-13T11:49:16Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。