論文の概要: Domain Adaptation via Teacher-Student Learning for End-to-End Speech
Recognition
- arxiv url: http://arxiv.org/abs/2001.01798v1
- Date: Mon, 6 Jan 2020 22:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 01:52:52.731232
- Title: Domain Adaptation via Teacher-Student Learning for End-to-End Speech
Recognition
- Title(参考訳): エンドツーエンド音声認識のための教師学習によるドメイン適応
- Authors: Zhong Meng, Jinyu Li, Yashesh Gaur, Yifan Gong
- Abstract要約: 教師学生(T/S)は,ハイブリッド音声認識システムにおけるディープニューラルネットワーク音響モデルのドメイン適応に有効であることが示されている。
我々はT/S学習を、注意に基づくエンドツーエンド(E2E)モデルの大規模非教師なし領域適応に拡張する。
ドメイン適応のために3400時間並列のクローズトークと遠距離のMicrosoft Cortanaデータを使用すると、T/SとAT/Sは6.3%と10.3%の単語エラー率の改善を達成した。
- 参考スコア(独自算出の注目度): 45.43522675189193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teacher-student (T/S) has shown to be effective for domain adaptation of deep
neural network acoustic models in hybrid speech recognition systems. In this
work, we extend the T/S learning to large-scale unsupervised domain adaptation
of an attention-based end-to-end (E2E) model through two levels of knowledge
transfer: teacher's token posteriors as soft labels and one-best predictions as
decoder guidance. To further improve T/S learning with the help of ground-truth
labels, we propose adaptive T/S (AT/S) learning. Instead of conditionally
choosing from either the teacher's soft token posteriors or the one-hot
ground-truth label, in AT/S, the student always learns from both the teacher
and the ground truth with a pair of adaptive weights assigned to the soft and
one-hot labels quantifying the confidence on each of the knowledge sources. The
confidence scores are dynamically estimated at each decoder step as a function
of the soft and one-hot labels. With 3400 hours parallel close-talk and
far-field Microsoft Cortana data for domain adaptation, T/S and AT/S achieve
6.3% and 10.3% relative word error rate improvement over a strong E2E model
trained with the same amount of far-field data.
- Abstract(参考訳): 教師学生(T/S)は,ハイブリッド音声認識システムにおけるディープニューラルネットワーク音響モデルのドメイン適応に有効であることが示されている。
本研究では,T/S学習を,注意に基づくエンドツーエンド(E2E)モデルの大規模非教師なし領域適応に拡張し,教師のトークン後部をソフトラベルとして,一益予測をデコーダガイダンスとして,2段階の知識伝達を行う。
そこで本研究では,T/S学習を適応的に行うことを提案する。
AT/Sでは、教師のソフトトークンの後部またはワンホットのグランドトゥルースラベルから条件付きで選択する代わりに、学生は常に教師と地上の真実から、ソフトとワンホットのラベルに割り当てられた一対の適応重みで学習し、それぞれの知識源に対する信頼度を定量化する。
信頼スコアは、ソフトおよびワンホットラベルの関数としてデコーダステップ毎に動的に推定される。
3400時間並列クローズトークと遠方フィールドのmicrosoft cortanaデータで、t/sとat/sは同じ量の遠方フィールドデータで訓練された強いe2eモデルに対して6.3%と10.3%の相対的な単語誤り率改善を達成している。
関連論文リスト
- Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-08-26T02:33:47Z) - Test-time adaptation for geospatial point cloud semantic segmentation with distinct domain shifts [6.80671668491958]
テスト時間適応(TTA)は、ソースデータへのアクセスや追加のトレーニングなしに、推論段階でラベル付けされていないデータに事前訓練されたモデルの直接適応を可能にする。
本稿では,3つの領域シフトパラダイムを提案する。光グラムから空気中LiDAR,空気中LiDAR,合成-移動レーザー走査である。
実験の結果,分類精度は最大20%mIoUに向上し,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-08T15:40:28Z) - Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation [3.759878064139572]
本稿では,機能マッピング問題に対処するためのA2D(Align-to-Distill)戦略を紹介する。
実験の結果,WMT-2022->DsbおよびWMT-2014 En->Deに対して,最大3.61点,+0.63点のBLEU値が得られた。
論文 参考訳(メタデータ) (2024-03-03T11:13:44Z) - Focus on Your Target: A Dual Teacher-Student Framework for
Domain-adaptive Semantic Segmentation [210.46684938698485]
意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。
対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。
本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
論文 参考訳(メタデータ) (2023-03-16T05:04:10Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Semi-supervised classification of radiology images with NoTeacher: A
Teacher that is not Mean [10.880392855729552]
一貫性に基づく半教師付き学習フレームワークであるNoTeacherを紹介する。
NoTeacherは2つの独立したネットワークを採用しており、教師ネットワークの必要性を排除している。
我々は,NoTeacherが5~15%未満のラベル付予算で,フル教師付きAUROCの90~95%以上を達成していることを示す。
論文 参考訳(メタデータ) (2021-08-10T03:08:35Z) - Teacher-Student Consistency For Multi-Source Domain Adaptation [28.576613317253035]
マルチソースドメイン適応(MSDA)では、モデルは複数のソースドメインのサンプルに基づいてトレーニングされ、異なるターゲットドメインの推論に使用される。
本稿では,これらの問題を緩和する新手法であるMulti-source Students Teacher (MUST)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:17:40Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。