論文の概要: Make More of Your Data: Minimal Effort Data Augmentation for Automatic
Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2210.15398v1
- Date: Thu, 27 Oct 2022 13:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:25:06.890727
- Title: Make More of Your Data: Minimal Effort Data Augmentation for Automatic
Speech Recognition and Translation
- Title(参考訳): データを増やす: 音声の自動認識と翻訳のための最小限の努力データ拡張
- Authors: Tsz Kin Lam, Shigehiko Schamoni and Stefan Riezler
- Abstract要約: 新しいトレーニングインスタンスを構築するために、オリジナルのデータ例を連結する、シンプルで費用効率の良い方法を評価する。
また, 継続学習法は, 非英語4言語に対するCoVoST-2のASR部において最大0.9 WERの改善をもたらす。
- 参考スコア(独自算出の注目度): 14.839931533868176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is a technique to generate new training data based on
existing data. We evaluate the simple and cost-effective method of
concatenating the original data examples to build new training instances.
Continued training with such augmented data is able to improve off-the-shelf
Transformer and Conformer models that were optimized on the original data only.
We demonstrate considerable improvements on the LibriSpeech-960h test sets (WER
2.83 and 6.87 for test-clean and test-other), which carry over to models
combined with shallow fusion (WER 2.55 and 6.27). Our method of continued
training also leads to improvements of up to 0.9 WER on the ASR part of
CoVoST-2 for four non English languages, and we observe that the gains are
highly dependent on the size of the original training data. We compare
different concatenation strategies and found that our method does not need
speaker information to achieve its improvements. Finally, we demonstrate on two
datasets that our methods also works for speech translation tasks.
- Abstract(参考訳): データ拡張は、既存のデータに基づいて新しいトレーニングデータを生成する技術である。
新しいトレーニングインスタンスを構築するために、オリジナルのデータ例を連結するシンプルで費用効率の良い方法を評価する。
このような拡張データによる継続的なトレーニングは、オリジナルのデータのみに最適化された既製のTransformerとConformerモデルを改善することができる。
リブリスピーチ-960hテストセット(テストクリーンおよびテストその他では2.83および6.87)は、浅い核融合 (2.55および6.27) と組み合わせたモデルに引き継がれた。
また, 4つの非英語のasr部分において最大0.9 werの改善が得られ, 元の訓練データの大きさに大きく依存することを確認した。
異なる連結戦略を比較し,その改善を達成するために話者情報を必要としないことを見出した。
最後に,提案手法が音声翻訳にも有効であることを2つのデータセットで示す。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - STraTA: Self-Training with Task Augmentation for Better Few-shot
Learning [77.04780470527432]
タスク拡張による自己学習のためのSTraTAを提案する。
実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。
分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
論文 参考訳(メタデータ) (2021-09-13T19:14:01Z) - Efficient Contrastive Learning via Novel Data Augmentation and
Curriculum Learning [11.138005656807968]
本稿では,メモリ効率の良い連続事前学習法であるEfficientCLを紹介する。
データ拡張には、カットオフとPCAジッタリングという2種類の操作を順次積み重ねる。
事前学習の段階が進む一方で,各難易度を増進してカリキュラム学習を適用する。
論文 参考訳(メタデータ) (2021-09-10T05:49:55Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。