論文の概要: Using Kaldi for Automatic Speech Recognition of Conversational Austrian
German
- arxiv url: http://arxiv.org/abs/2301.06475v1
- Date: Mon, 16 Jan 2023 15:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:39:58.058764
- Title: Using Kaldi for Automatic Speech Recognition of Conversational Austrian
German
- Title(参考訳): 会話型オーストリアドイツ語の自動音声認識におけるkaldiの利用
- Authors: Julian Linke, Saskia Wepner, Gernot Kubin and Barbara Schuppler
- Abstract要約: 本稿では,オーストリアドイツ語の読み書き実験を対象とするASR実験について述べる。
我々は知識に基づく発音レキシコンを組み込むことで、カルディに基づくASRシステムを改善する。
我々はドイツ語読み上げ音声で0.4%、会話音声で48.5%のWERを達成する。
- 参考スコア(独自算出の注目度): 5.887969742827489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As dialogue systems are becoming more and more interactional and social, also
the accurate automatic speech recognition (ASR) of conversational speech is of
increasing importance. This shifts the focus from short, spontaneous,
task-oriented dialogues to the much higher complexity of casual face-to-face
conversations. However, the collection and annotation of such conversations is
a time-consuming process and data is sparse for this specific speaking style.
This paper presents ASR experiments with read and conversational Austrian
German as target. In order to deal with having only limited resources available
for conversational German and, at the same time, with a large variation among
speakers with respect to pronunciation characteristics, we improve a
Kaldi-based ASR system by incorporating a (large) knowledge-based pronunciation
lexicon, while exploring different data-based methods to restrict the number of
pronunciation variants for each lexical entry. We achieve best WER of 0.4% on
Austrian German read speech and best average WER of 48.5% on conversational
speech. We find that by using our best pronunciation lexicon a similarly high
performance can be achieved than by increasing the size of the data used for
the language model by approx. 360% to 760%. Our findings indicate that for
low-resource scenarios -- despite the general trend in speech technology
towards using data-based methods only -- knowledge-based approaches are a
successful, efficient method.
- Abstract(参考訳): 対話システムがより対話的・社会的になるにつれて、会話音声の正確な自動音声認識(asr)も重要性を増している。
これは、短時間で自発的なタスク指向の対話から、カジュアルな対面会話の複雑さに焦点を移す。
しかし、このような会話の収集とアノテーションは時間を要するプロセスであり、この特定の話し方ではデータは不十分である。
本稿では,オーストリアドイツ語の読み書き実験を対象とするASR実験について述べる。
対話型ドイツ語では限られたリソースしか持たないが、発音特性に関しては話者間で大きなバリエーションがあるため、知識ベースの発音辞書を組み込むことにより、カルディベースのASRシステムを改善するとともに、各語彙エントリの発音変種数を制限する異なるデータベースの手法を模索する。
我々はドイツ語読み上げ音声で0.4%、会話音声で48.5%のWERを達成する。
言語モデルに使用するデータのサイズを近似的に増加させるよりも,我々の最高の発音レキシコンを使用することで,同様の高い性能が得られることがわかった。
360%から760%。
この結果から,低リソースシナリオでは,知識に基づくアプローチが成功し,効率的な手法であることが示唆された。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - CKERC : Joint Large Language Models with Commonsense Knowledge for
Emotion Recognition in Conversation [0.0]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。
会話における感情認識のための共通知識フレームワークであるCKERCを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。