論文の概要: Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition
Systems A case study for Modern Greek
- arxiv url: http://arxiv.org/abs/2301.00304v1
- Date: Sat, 31 Dec 2022 22:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:46:28.521076
- Title: Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition
Systems A case study for Modern Greek
- Title(参考訳): 音声認識システムのサンプル非教師付きドメイン適応 : 現代ギリシア語を事例として
- Authors: Georgios Paraskevopoulos, Theodoros Kouzelis, Georgios Rouvalis,
Athanasios Katsamanis, Vassilis Katsouros, Alexandros Potamianos
- Abstract要約: M2DS2は,大規模な事前学習音声モデルに対して,単純かつサンプル効率のよい微調整手法である。
ソースドメインの自己スーパービジョンを含め、トレーニングを安定させ、潜伏表現のモード崩壊を避けることができる。
- 参考スコア(独自算出の注目度): 70.82099772016234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern speech recognition systems exhibits rapid performance degradation
under domain shift. This issue is especially prevalent in data-scarce settings,
such as low-resource languages, where diversity of training data is limited. In
this work we propose M2DS2, a simple and sample-efficient finetuning strategy
for large pretrained speech models, based on mixed source and target domain
self-supervision. We find that including source domain self-supervision
stabilizes training and avoids mode collapse of the latent representations. For
evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting
of plenary sessions in the Greek Parliament. We merge HParl with two popular
Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of
Greek ASR systems. In our experiments we find that, while other Unsupervised
Domain Adaptation baselines fail in this resource-constrained environment,
M2DS2 yields significant improvements for cross-domain adaptation, even when a
only a few hours of in-domain audio are available. When we relax the problem in
a weakly supervised setting, we find that independent adaptation for audio
using M2DS2 and language using simple LM augmentation techniques is
particularly effective, yielding word error rates comparable to the fully
supervised baselines.
- Abstract(参考訳): 現代の音声認識システムは、ドメインシフト下での高速な性能劣化を示す。
この問題は、トレーニングデータの多様性が制限されている低リソース言語など、データスカースな設定で特に顕著である。
本研究では,混合音源と対象領域の自己スーパービジョンに基づく大規模事前学習音声モデルの簡易かつサンプル効率の良い微調整手法であるm2ds2を提案する。
ソースドメインの自己スーパービジョンを含め、トレーニングを安定させ、潜伏表現のモード崩壊を回避する。
評価のために、ギリシャ議会のプレナリーセッションからなる、ギリシャ語のための120ドルのスピーチコーパスであるHParlを収集する。
我々はHParlを2つのギリシャのコーパスと統合し、ギリシャのASRシステムのマルチドメイン評価のためのテストベッドであるGREC-MDを作成する。
我々の実験では、他のUnsupervised Domain Adaptationベースラインはこのリソース制約のある環境では失敗するが、M2DS2は、わずか数時間のドメイン内オーディオが利用できる場合でも、ドメイン間の適応に大きな改善をもたらす。
弱教師付き環境で問題を緩和すると、M2DS2と単純なLM拡張技術を用いた言語による音声の独立適応が特に有効であることが分かり、完全教師付きベースラインに匹敵する単語誤り率が得られる。
関連論文リスト
- Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses [28.74405969209494]
雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
本稿では,半教師付きエンド・ツー・エンド音声認識の極端な事例として,ペア音声,ラベルなし音声,豊富な外部テキストが存在することを考察する。
論文 参考訳(メタデータ) (2024-07-26T10:57:06Z) - DDAM-PS: Diligent Domain Adaptive Mixer for Person Search [18.54985960776783]
パーソンサーチ(PS)は、歩行者検出と再識別のための共同最適化を実現することを目的としたコンピュータビジョン問題である。
これまでの進歩は、完全に教師された学習スタイルの下で、この分野で有望なパフォーマンスを示してきた。
本稿では、ラベル付きソースドメインからラベルなしターゲットドメインへの知識伝達を改善するためにギャップを埋めることを目的とした、個人検索(DDAP-PS)フレームワーク用指向型ドメイン適応ミキサー(DDAM)を提案する。
論文 参考訳(メタデータ) (2023-10-31T17:59:14Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。