論文の概要: Speaker-Aware Simulation Improves Conversational Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.04776v1
- Date: Wed, 04 Feb 2026 17:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.653421
- Title: Speaker-Aware Simulation Improves Conversational Speech Recognition
- Title(参考訳): 話者認識による会話音声認識の改善
- Authors: Máté Gedeon, Péter Mihajlik,
- Abstract要約: ハンガリー語会話型ASRのためのSASCフレームワークを適応し実装する。
C-SASC(C-SASC)は、発話時間に条件付きポーズモデリングを組み込んだ拡張版である。
我々は、BEA-Largeコーパスから合成ハンガリー語対話を生成し、それらを実際の会話データと組み合わせてASR訓練を行う。
- 参考スコア(独自算出の注目度): 1.0251581485267474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) for conversational speech remains challenging due to the limited availability of large-scale, well-annotated multi-speaker dialogue data and the complex temporal dynamics of natural interactions. Speaker-aware simulated conversations (SASC) offer an effective data augmentation strategy by transforming single-speaker recordings into realistic multi-speaker dialogues. However, prior work has primarily focused on English data, leaving questions about the applicability to lower-resource languages. In this paper, we adapt and implement the SASC framework for Hungarian conversational ASR. We further propose C-SASC, an extended variant that incorporates pause modeling conditioned on utterance duration, enabling a more faithful representation of local temporal dependencies observed in human conversation while retaining the simplicity and efficiency of the original approach. We generate synthetic Hungarian dialogues from the BEA-Large corpus and combine them with real conversational data for ASR training. Both SASC and C-SASC are evaluated extensively under a wide range of simulation configurations, using conversational statistics derived from CallHome, BEA-Dialogue, and GRASS corpora. Experimental results show that speaker-aware conversational simulation consistently improves recognition performance over naive concatenation-based augmentation. While the additional duration conditioning in C-SASC yields modest but systematic gains--most notably in character-level error rates--its effectiveness depends on the match between source conversational statistics and the target domain. Overall, our findings confirm the robustness of speaker-aware conversational simulation for Hungarian ASR and highlight the benefits and limitations of increasingly detailed temporal modeling in synthetic dialogue generation.
- Abstract(参考訳): 対話音声の自動音声認識 (ASR) は, 大規模な多話者対話データと, 対話の複雑な時間的ダイナミクスが限られているため, 依然として困難である。
話者認識シミュレートされた会話(SASC)は、単一話者録音を現実的なマルチ話者対話に変換することにより、効果的なデータ拡張戦略を提供する。
しかし、以前の研究は主に英語のデータに焦点を当てており、低リソース言語の適用性に関する疑問を残している。
本稿では,ハンガリー語会話型ASRのためのSASCフレームワークを適応し,実装する。
さらに,C-SASCは,発話継続時間に条件付き停止モデリングを組み込んだ拡張版であり,従来のアプローチの単純さと効率性を保ちながら,人間の会話で観察される局所的時間依存性をより忠実に表現することができる。
我々は、BEA-Largeコーパスから合成ハンガリー語対話を生成し、それらを実際の会話データと組み合わせてASR訓練を行う。
SASCとC-SASCは、CallHome、BEA-Dialogue、GRASSコーパスから得られた会話統計を用いて、広範囲なシミュレーション構成で広く評価されている。
実験結果から,話者認識型会話シミュレーションは,ナイーブ結合に基づく拡張よりも認識性能を一貫して向上することが示された。
C-SASCにおける追加の継続条件は、控えめだが体系的な利得(特に文字レベルのエラー率)をもたらすが、その有効性は、ソースの会話統計と対象のドメインの一致に依存する。
本研究は,ハンガリー語ASRにおける話者認識型会話シミュレーションの堅牢性を確認し,合成対話生成における時間的モデリングの利点と限界を強調した。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition [17.806195208457428]
コードスイッチング(英: Code-switching)とは、1つの会話の中で2つ以上の言語を交換することである。
既存のマンダリン・イングリッシュのコードスイッチングデータセットは、サイズ、自発性、および書き起こしを伴うフル長の対話記録の欠如に悩まされることが多い。
CS-Dialogueは,200人の話者から104時間の自発的な会話を含む,大規模マンダリン・イングリッシュ・コードスイッチング音声データセットである。
論文 参考訳(メタデータ) (2025-02-26T07:59:55Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。