論文の概要: Data Techniques For Online End-to-end Speech Recognition
- arxiv url: http://arxiv.org/abs/2001.09221v2
- Date: Sun, 26 Jul 2020 22:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 04:57:41.657039
- Title: Data Techniques For Online End-to-end Speech Recognition
- Title(参考訳): オンラインエンドツーエンド音声認識のためのデータ技術
- Authors: Yang Chen, Weiran Wang, I-Fan Chen, Chao Wang
- Abstract要約: ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。
最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。
本稿では,オンラインASRシステムをエンド・ツー・エンドで構築するための簡単な実装手法について検討する。
- 参考スコア(独自算出の注目度): 17.621967685914587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners often need to build ASR systems for new use cases in a short
amount of time, given limited in-domain data. While recently developed
end-to-end methods largely simplify the modeling pipelines, they still suffer
from the data sparsity issue. In this work, we explore a few
simple-to-implement techniques for building online ASR systems in an end-to-end
fashion, with a small amount of transcribed data in the target domain. These
techniques include data augmentation in the target domain, domain adaptation
using models previously trained on a large source domain, and knowledge
distillation on non-transcribed target domain data, using an adapted
bi-directional model as the teacher; they are applicable in real scenarios with
different types of resources. Our experiments demonstrate that each technique
is independently useful in the improvement of the online ASR performance in the
target domain.
- Abstract(参考訳): ドメイン内データに制限があるため、多くの場合、新しいユースケースのためのASRシステムを短時間で構築する必要がある。
最近開発されたエンドツーエンドのメソッドは、モデリングパイプラインを大いに単純化するが、それでもデータ空間の問題に悩まされている。
本研究では,対象領域に少額の書き起こしデータを格納して,エンドツーエンドでオンラインasrシステムを構築するための簡単な実装手法について検討する。
これらのテクニックには、ターゲットドメインにおけるデータ拡張、大規模ソースドメインで以前に訓練されたモデルを用いたドメイン適応、教師として適応された双方向モデルを用いて、非転写対象ドメインデータに対する知識蒸留が含まれる。
実験により,各手法は対象領域におけるオンラインASRの性能向上に独立して有用であることが示された。
関連論文リスト
- Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Adapting to Distribution Shift by Visual Domain Prompt Generation [34.19066857066073]
いくつかのラベルのないデータを使って、テスト時にモデルを適応し、分散シフトに対処する。
ソースドメインから移行可能な知識を学ぶための知識銀行を構築します。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2024-05-05T02:44:04Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Flexible deep transfer learning by separate feature embeddings and
manifold alignment [0.0]
オブジェクト認識は、業界と防衛において重要な存在である。
残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。
本稿では,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T19:24:44Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。