論文の概要: Efficient Utilization of Large Pre-Trained Models for Low Resource ASR
- arxiv url: http://arxiv.org/abs/2210.15445v3
- Date: Thu, 17 Aug 2023 13:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:18:00.231342
- Title: Efficient Utilization of Large Pre-Trained Models for Low Resource ASR
- Title(参考訳): 低資源ASRのための大規模事前学習モデルの有効利用
- Authors: Peter Vieting, Christoph L\"uscher, Julian Dierkes, Ralf Schl\"uter,
Hermann Ney
- Abstract要約: ベトナム語とドイツ語の医学領域から,低リソースの会話音声コーパスについて検討した。
本研究では,大規模事前学習モデルの簡易微調整を超えて,教師なし手法の利点を示す。
- 参考スコア(独自算出の注目度): 31.57758062484189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning has recently helped automatic speech
recognition (ASR) to tackle tasks with limited labeled data. Following this,
hardware limitations and applications give rise to the question how to take
advantage of large pre-trained models efficiently and reduce their complexity.
In this work, we study a challenging low resource conversational telephony
speech corpus from the medical domain in Vietnamese and German. We show the
benefits of using unsupervised techniques beyond simple fine-tuning of large
pre-trained models, discuss how to adapt them to a practical telephony task
including bandwidth transfer and investigate different data conditions for
pre-training and fine-tuning. We outperform the project baselines by 22%
relative using pretraining techniques. Further gains of 29% can be achieved by
refinements of architecture and training and 6% by adding 0.8 h of in-domain
adaptation data.
- Abstract(参考訳): 教師なし表現学習は、最近、ラベル付きデータに制限のあるタスクに取り組むために自動音声認識(ASR)を支援した。
これに続いて、ハードウェアの制限とアプリケーションは、大規模な事前訓練されたモデルを効率的に活用し、その複雑さを減らす方法に疑問を呈する。
本研究では,ベトナム語とドイツ語の医療領域における低資源会話音声コーパスについて検討する。
本研究では,大規模な事前学習モデルの簡易微調整を超えて教師なし手法を用いることのメリットを示し,帯域転送を含む実践的なテレフォニータスクに適応する方法,事前学習と微調整のための異なるデータ条件を検討する。
事前トレーニング技術を用いて,プロジェクトのベースラインを22%上回っています。
さらなる29%の利益は、アーキテクチャとトレーニングの改善と、ドメイン内適応データの0.8hの追加によって6%に達する。
関連論文リスト
- TAIL: Task-specific Adapters for Imitation Learning with Large
Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。
言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。
大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T17:49:50Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。