論文の概要: Prominence-aware automatic speech recognition for conversational speech
- arxiv url: http://arxiv.org/abs/2509.10116v1
- Date: Fri, 12 Sep 2025 10:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.049177
- Title: Prominence-aware automatic speech recognition for conversational speech
- Title(参考訳): 音声認識による会話音声の自動認識
- Authors: Julian Linke, Barbara Schuppler,
- Abstract要約: 本稿では,音声認識の優位性に着目した音声認識について検討する。
これは、対話型ドイツ語の発音検出と音声認識を組み合わせたものである。
変換器ベースのモデルが韻律情報を効果的に符号化できることが示される。
- 参考スコア(独自算出の注目度): 5.908471365011944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates prominence-aware automatic speech recognition (ASR) by combining prominence detection and speech recognition for conversational Austrian German. First, prominence detectors were developed by fine-tuning wav2vec2 models to classify word-level prominence. The detector was then used to automatically annotate prosodic prominence in a large corpus. Based on those annotations, we trained novel prominence-aware ASR systems that simultaneously transcribe words and their prominence levels. The integration of prominence information did not change performance compared to our baseline ASR system, while reaching a prominence detection accuracy of 85.53% for utterances where the recognized word sequence was correct. This paper shows that transformer-based models can effectively encode prosodic information and represents a novel contribution to prosody-enhanced ASR, with potential applications for linguistic research and prosody-informed dialogue systems.
- Abstract(参考訳): 本稿では,対話型ドイツ語における発音検出と音声認識を組み合わせることで,ASR(Prominence-aware Automatic Speech Recognition)について検討する。
まず、単語レベルのプロミネンスを分類するために、微調整のwav2vec2モデルを用いてプロミネンス検出器を開発した。
検出器はその後、大きなコーパスで韻律の発音を自動的に注釈付けするために使用された。
それらのアノテーションに基づいて,単語とその発音レベルを同時に転写する新規な発音認識型ASRシステムを訓練した。
認識された単語列が正しい発話に対して,発音検出精度85.53%に達する一方で,発音情報の統合はベースラインASRシステムと比較して性能が変化しなかった。
本稿では,トランスフォーマーをベースとしたモデルが韻律情報を効果的に符号化し,韻律強化ASRへの新たな貢献を表現し,言語研究や韻律インフォームド・ダイアログシステムへの応用の可能性を示す。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。