論文の概要: Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR
in Transfer Learning
- arxiv url: http://arxiv.org/abs/2005.10407v2
- Date: Thu, 28 May 2020 09:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 00:11:57.849187
- Title: Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR
in Transfer Learning
- Title(参考訳): トランスファー学習におけるハイブリッドトランスフォーマーLSTMに基づくエンドツーエンドASRを用いたテキストデータの活用
- Authors: Zhiping Zeng, Van Tung Pham, Haihua Xu, Yerbolat Khassanov, Eng Siong
Chng, Chongjia Ni and Bin Ma
- Abstract要約: 低リソースのエンドツーエンドASRを改善するために,Transformer-LSTMをベースとしたハイブリッドアーキテクチャを提案する。
我々は、限られたラベル付きデータと大量の余分なテキストを含む社内マレーコーパスで実験を行う。
全体として、最高のモデルでは、Vanilla Transformer ASRを11.9%向上させています。
- 参考スコア(独自算出の注目度): 37.55706646713447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study leveraging extra text data to improve low-resource
end-to-end ASR under cross-lingual transfer learning setting. To this end, we
extend our prior work [1], and propose a hybrid Transformer-LSTM based
architecture. This architecture not only takes advantage of the highly
effective encoding capacity of the Transformer network but also benefits from
extra text data due to the LSTM-based independent language model network. We
conduct experiments on our in-house Malay corpus which contains limited labeled
data and a large amount of extra text. Results show that the proposed
architecture outperforms the previous LSTM-based architecture [1] by 24.2%
relative word error rate (WER) when both are trained using limited labeled
data. Starting from this, we obtain further 25.4% relative WER reduction by
transfer learning from another resource-rich language. Moreover, we obtain
additional 13.6% relative WER reduction by boosting the LSTM decoder of the
transferred model with the extra text data. Overall, our best model outperforms
the vanilla Transformer ASR by 11.9% relative WER. Last but not least, the
proposed hybrid architecture offers much faster inference compared to both LSTM
and Transformer architectures.
- Abstract(参考訳): 本研究では,多言語間転送学習環境において,低リソースのasrを改善するために,追加のテキストデータを活用することを検討する。
この目的のために、我々は以前の作業 [1] を拡張し、Transformer-LSTM ベースのハイブリッドアーキテクチャを提案する。
このアーキテクチャはトランスフォーマーネットワークの高効率な符号化能力を利用するだけでなく、LSTMベースの独立言語モデルネットワークによる追加のテキストデータも活用する。
我々は、限られたラベル付きデータと大量の余分なテキストを含む社内マレーコーパスで実験を行う。
提案したアーキテクチャは,ラベル付き限られたデータを用いてトレーニングした場合,従来のLSTMアーキテクチャ[1]よりも24.2%高い性能を示した。
このことから、他のリソース豊富な言語からの学習を転送することで、さらに25.4%削減できる。
さらに,転送モデルのlstmデコーダを余分なテキストデータで増加させることにより,13.6%の相対 wer 削減が可能となった。
全体として、我々の最良のモデルはバニラトランスフォーマーasrを11.9%上回っている。
最後に、提案されているハイブリッドアーキテクチャはLSTMおよびTransformerアーキテクチャと比較してはるかに高速な推論を提供する。
関連論文リスト
- Probing the limit of hydrologic predictability with the Transformer
network [7.326504492614808]
我々は、広くベンチマークされたCAMELSデータセット上で、バニラトランスフォーマーアーキテクチャがLSTMと競合しないことを示す。
Transformerの再現性のない変種はLSTMとの混合比較を得ることができ、同じKling-Gupta効率係数(KGE)を他の指標とともに生成する。
Transformerの結果は現在の最先端のものほど高くはないが、それでもいくつかの貴重な教訓が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:06:54Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Performance Comparison of Simple Transformer and Res-CNN-BiLSTM for
Cyberbullying Classification [4.2317391919680425]
本稿では,テキスト分類問題に対する単純なトランスフォーマーベースネットワークとRes-CNN-BiLSTMベースのネットワークの性能比較を行う。
その結果、0.65万のパラメータでトレーニングしたトランスフォーマーは、より高速なトレーニング速度とより一般化されたメトリクスのために48.82万のパラメータでRes-CNN-BiLSTMのパフォーマンスを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-06-05T15:46:21Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Can the Transformer Be Used as a Drop-in Replacement for RNNs in
Text-Generating GANs? [0.0]
我々は、優れたテキスト生成敵ネットワーク(GAN)アーキテクチャー-ダイバーシティ・プロモーティングGAN(DPGAN)を用いている。
我々はLSTM層を自己注意型トランスフォーマー層に置き換えて効率を向上する試みを行った。
得られた自己注意 DPGAN (SADPGAN) は, 生成したテキストの性能, 品質, 多様性, 安定性について評価した。
論文 参考訳(メタデータ) (2021-08-26T14:15:36Z) - Improving Deep Learning for HAR with shallow LSTMs [70.94062293989832]
本稿では,DeepConvLSTMを2層LSTMではなく1層LSTMに変更することを提案する。
この結果は、シーケンシャルデータを扱う場合、少なくとも2層LSTMが必要であるという信念とは対照的である。
論文 参考訳(メタデータ) (2021-08-02T08:14:59Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Transformer based Multilingual document Embedding model [22.346360611417648]
本稿では,変圧器を用いた文/文書埋め込みモデルT-LASERを提案する。
第一に、BiLSTMレイヤは、より長いテキストでシーケンシャルなパターンを学習できるアテンションベースのトランスフォーマーレイヤに置き換えられる。
第二に、繰り返しがないため、T-LASERはエンコーダの高速な並列計算を可能にし、テキスト埋め込みを生成する。
論文 参考訳(メタデータ) (2020-08-19T17:51:30Z) - TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding [18.526060699574142]
Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。
本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
論文 参考訳(メタデータ) (2020-03-16T03:38:51Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。