論文の概要: LSTM Acoustic Models Learn to Align and Pronounce with Graphemes
- arxiv url: http://arxiv.org/abs/2008.06121v1
- Date: Thu, 13 Aug 2020 21:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:56:48.214369
- Title: LSTM Acoustic Models Learn to Align and Pronounce with Graphemes
- Title(参考訳): lstm音響モデルによるグラニュムのアライメントと発音の学習
- Authors: Arindrima Datta, Guanlong Zhao, Bhuvana Ramabhadran, Eugene Weinstein
- Abstract要約: そこで本研究では,純粋にデータ駆動型で学習可能なグラファイムに基づく音声認識手法を提案する。
大規模なデータセットで学習すると,音素出力モデルとWERが競合することを示す。
- 参考スコア(独自算出の注目度): 22.453756228457017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated speech recognition coverage of the world's languages continues to
expand. However, standard phoneme based systems require handcrafted lexicons
that are difficult and expensive to obtain. To address this problem, we propose
a training methodology for a grapheme-based speech recognizer that can be
trained in a purely data-driven fashion. Built with LSTM networks and trained
with the cross-entropy loss, the grapheme-output acoustic models we study are
also extremely practical for real-world applications as they can be decoded
with conventional ASR stack components such as language models and FST
decoders, and produce good quality audio-to-grapheme alignments that are useful
in many speech applications. We show that the grapheme models are competitive
in WER with their phoneme-output counterparts when trained on large datasets,
with the advantage that grapheme models do not require explicit linguistic
knowledge as an input. We further compare the alignments generated by the
phoneme and grapheme models to demonstrate the quality of the pronunciations
learnt by them using four Indian languages that vary linguistically in spoken
and written forms.
- Abstract(参考訳): 世界の言語の自動音声認識は拡大を続けている。
しかし、標準的な音素ベースのシステムは、入手が困難で高価である手作りのレキシコンを必要とする。
この問題に対処するために,純粋にデータ駆動型で学習可能なグラフ式音声認識器の訓練手法を提案する。
LSTMネットワークで構築し, クロスエントロピー損失を学習したグラファイム出力音響モデルは, 言語モデルやFSTデコーダなどの従来のASRスタックコンポーネントで復号化でき, 多くの音声アプリケーションで有用な高品質なオーディオ・ツー・グラファイムアライメントを生成できるため, 実世界のアプリケーションでは極めて実用的である。
大規模データセット上での学習において,graphemeモデルは,入力として明示的な言語知識を必要としないという利点を生かして,音素出力モデルと競合関係にあることを示す。
さらに、音素モデルと音素モデルによるアライメントを比較し、言語的に異なる4つのインドの言語を用いて学習した発音の質を示す。
関連論文リスト
- TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Learning to pronounce as measuring cross lingual joint
orthography-phonology complexity [0.0]
本稿では,グラファイム対音素(g2p)の音素翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。
発音の学習に関して、より簡単で難しい言語を区別する特定の特徴が浮かび上がっていることを示す。
論文 参考訳(メタデータ) (2022-01-29T14:44:39Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - A systematic comparison of grapheme-based vs. phoneme-based label units
for encoder-decoder-attention models [42.761409598613845]
我々は,エンコーダ・デコーダ・アテンションASRモデルに対して,グラファイムと音素に基づく出力ラベルを体系的に比較する。
Switchboard 300h と LibriSpeech ベンチマークで実施された実験は、音素ベースのモデリングは、グラファイムベースのエンコーダ-デコーダ-アテンションモデリングと競合していることを示している。
論文 参考訳(メタデータ) (2020-05-19T09:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。