論文の概要: Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization
- arxiv url: http://arxiv.org/abs/2304.14535v2
- Date: Mon, 31 Jul 2023 11:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 22:57:31.960653
- Title: Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization
- Title(参考訳): 音声認識のためのディープトランスファー学習 : 一般化に向けて
- Authors: Hamza Kheddar, Yassine Himeur, Somaya Al-Maadeed, Abbes Amira, Faycal
Bensaali
- Abstract要約: 深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
- 参考スコア(独自算出の注目度): 3.6393183544320236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) has recently become an important challenge
when using deep learning (DL). It requires large-scale training datasets and
high computational and storage resources. Moreover, DL techniques and machine
learning (ML) approaches in general, hypothesize that training and testing data
come from the same domain, with the same input feature space and data
distribution characteristics. This assumption, however, is not applicable in
some real-world artificial intelligence (AI) applications. Moreover, there are
situations where gathering real data is challenging, expensive, or rarely
occurring, which can not meet the data requirements of DL models. deep transfer
learning (DTL) has been introduced to overcome these issues, which helps
develop high-performing models using real datasets that are small or slightly
different but related to the training data. This paper presents a comprehensive
survey of DTL-based ASR frameworks to shed light on the latest developments and
helps academics and professionals understand current challenges. Specifically,
after presenting the DTL background, a well-designed taxonomy is adopted to
inform the state-of-the-art. A critical analysis is then conducted to identify
the limitations and advantages of each framework. Moving on, a comparative
study is introduced to highlight the current challenges before deriving
opportunities for future research.
- Abstract(参考訳): 近年,ディープラーニング(DL)では,音声認識(ASR)が重要な課題となっている。
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
さらに、dlテクニックと機械学習(ml)アプローチは一般的に、トレーニングとテストのデータを同じドメインから、同じ入力特徴空間とデータ分散特性を持つものと仮定している。
しかし、この仮定は現実の人工知能(AI)の応用には適用できない。
さらに、DLモデルのデータ要求を満たすことができない、実際のデータ収集が困難、高価、あるいは稀に発生する状況もある。
この問題を克服するために、dtl(deep transfer learning)が導入された。これは、トレーニングデータに関連して、小さく、あるいはやや異なる実際のデータセットを使用して、高性能なモデルを開発するのに役立つ。
本稿では,DTLをベースとしたASRフレームワークに関する包括的調査を行い,現状の課題を明らかにする。
具体的には、DTLの背景を提示した後、最先端の情報を知らせるために、よく設計された分類法が採用される。
それぞれのフレームワークの限界と利点を特定するために、批判的な分析が行われる。
今後の研究の機会を導き出す前に、現在の課題を強調するために比較研究が導入された。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - MISS: Memory-efficient Instance Segmentation Framework By Visual Inductive Priors Flow Propagation [8.727456619750983]
トレーニングデータセットへの視覚的事前の戦略的統合は、テストデータ分布との整合性を高める潜在的なソリューションとして現れます。
MISSの有効性を実証的に評価し、限られたデータ可用性とメモリ制約を特徴とするシナリオにおいて、賞賛可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-18T08:52:23Z) - Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey [2.716339075963185]
近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって重要な課題となっている。
ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。
ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-02T16:25:42Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Systems for Parallel and Distributed Large-Model Deep Learning Training [7.106986689736828]
最近のTransformerモデルは、数十億の学習可能なパラメータにまたがっている。
これらの設計はDL空間に新たなスケール駆動システム課題をもたらした。
この調査では、大規模なモデルトレーニングシステムの展望を探求し、主要な課題とそれに対応する様々なテクニックを強調します。
論文 参考訳(メタデータ) (2023-01-06T19:17:29Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。