論文の概要: Language Agnostic Data-Driven Inverse Text Normalization
- arxiv url: http://arxiv.org/abs/2301.08506v2
- Date: Tue, 24 Jan 2023 00:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 15:13:55.481839
- Title: Language Agnostic Data-Driven Inverse Text Normalization
- Title(参考訳): 言語非依存データ駆動逆テキスト正規化
- Authors: Szu-Jui Chen, Debjyoti Paul, Yutong Pang, Peng Su, Xuedong Zhang
- Abstract要約: 逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.43601166279978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of automatic speech recognition (ASR) models, converting
the spoken form text (from ASR) to the written form is in urgent need. This
inverse text normalization (ITN) problem attracts the attention of researchers
from various fields. Recently, several works show that data-driven ITN methods
can output high-quality written form text. Due to the scarcity of labeled
spoken-written datasets, the studies on non-English data-driven ITN are quite
limited. In this work, we propose a language-agnostic data-driven ITN framework
to fill this gap. Specifically, we leverage the data augmentation in
conjunction with neural machine translated data for low resource languages.
Moreover, we design an evaluation method for language agnostic ITN model when
only English data is available. Our empirical evaluation shows this language
agnostic modeling approach is effective for low resource languages while
preserving the performance for high resource languages.
- Abstract(参考訳): 自動音声認識(ASR)モデルが出現すると、音声形式のテキスト(ASRから)を書式に変換することが緊急に必要となる。
この逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
近年,データ駆動型itn手法が高品質な書式テキストを出力できることが示されている。
ラベル付き音声データセットの不足のため、非英語データ駆動型itnの研究は非常に限られている。
本研究では,このギャップを埋めるため,言語に依存しないITNフレームワークを提案する。
具体的には、低リソース言語のためのニューラルネットワーク変換データと組み合わせて、データ拡張を利用する。
さらに,英語データのみを利用可能とする言語非依存itnモデルの評価手法を設計する。
この言語非依存モデリングアプローチは,高リソース言語の性能を維持しつつ低リソース言語に有効であることを示す。
関連論文リスト
- Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。
このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文 参考訳(メタデータ) (2021-06-11T10:59:09Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。