論文の概要: Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR
- arxiv url: http://arxiv.org/abs/2007.06949v3
- Date: Wed, 4 Nov 2020 09:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:08:50.881496
- Title: Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR
- Title(参考訳): 形態的リッチオンラインASRのためのサブワードユニットを用いたディープトランスフォーマーに基づくデータ拡張
- Authors: Bal\'azs Tarj\'an, Gy\"orgy Szasz\'ak, Tibor Fegy\'o, P\'eter Mihajlik
- Abstract要約: ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Deep Transformer models have proven to be particularly powerful in
language modeling tasks for ASR. Their high complexity, however, makes them
very difficult to apply in the first (single) pass of an online system. Recent
studies showed that a considerable part of the knowledge of neural network
Language Models (LM) can be transferred to traditional n-grams by using neural
text generation based data augmentation. In our paper, we pre-train a GPT-2
Transformer LM on a general text corpus and fine-tune it on our Hungarian
conversational call center ASR task. We show that although data augmentation
with Transformer-generated text works well for isolating languages, it causes a
vocabulary explosion in a morphologically rich language. Therefore, we propose
a new method called subword-based neural text augmentation, where we retokenize
the generated text into statistically derived subwords. We compare Morfessor
and BPE statistical subword tokenizers and show that both methods can
significantly improve the WER while greatly reducing vocabulary size and memory
requirements. Finally, we also demonstrate that subword-based neural text
augmentation outperforms the word-based approach not only in terms of overall
WER but also in recognition of OOV words.
- Abstract(参考訳): 近年のDeep Transformerモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
しかし、その高い複雑さは、オンラインシステムの最初の(単一の)パスに適用するのが非常に難しい。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
本稿では,汎用テキストコーパス上でGPT-2 Transformer LMを事前訓練し,ハンガリーの会話コールセンタASRタスクで微調整する。
トランスフォーマティブテキストによるデータ拡張は言語を分離するのには有効であるが、形態学的にリッチな言語では語彙が爆発する。
そこで本研究では,生成されたテキストを統計的に派生したサブワードに再合成するサブワードベースニューラルテキスト拡張法を提案する。
morfessor と bpe の統計サブワードトークンライザを比較し,語彙サイズとメモリ要件を大幅に削減しながら,両手法とも wer を大幅に改善できることを示した。
最後に,サブワードに基づくニューラルテキスト拡張が,単語ベースのアプローチよりも,全体的werだけでなく,oov単語の認識において優れていることを示す。
関連論文リスト
- Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech [0.0]
我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
論文 参考訳(メタデータ) (2020-06-09T09:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。