論文の概要: Automatic Data Augmentation for Domain Adapted Fine-Tuning of
Self-Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2306.00481v1
- Date: Thu, 1 Jun 2023 09:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:24:00.044198
- Title: Automatic Data Augmentation for Domain Adapted Fine-Tuning of
Self-Supervised Speech Representations
- Title(参考訳): 自己教師付き音声表現のドメイン適応微調整のための自動データ拡張
- Authors: Salah Zaiem, Titouan Parcollet, Slim Essid
- Abstract要約: SSL(Self-Supervised Learning)は、大量のラベルのない音声データを活用して音声認識モデルの性能を向上させる。
これにもかかわらず、プレトレーニングとターゲットデータセットの音響ミスマッチに直面しながら、音声SSL表現が失敗する可能性がある。
音響領域におけるそのようなミスマッチを示すケースを対象とした,新しい教師付きドメイン適応手法を提案する。
- 参考スコア(独自算出の注目度): 21.423349835589793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) has allowed leveraging large amounts of
unlabeled speech data to improve the performance of speech recognition models
even with small annotated datasets. Despite this, speech SSL representations
may fail while facing an acoustic mismatch between the pretraining and target
datasets. To address this issue, we propose a novel supervised domain
adaptation method, designed for cases exhibiting such a mismatch in acoustic
domains. It consists in applying properly calibrated data augmentations on a
large clean dataset, bringing it closer to the target domain, and using it as
part of an initial fine-tuning stage. Augmentations are automatically selected
through the minimization of a conditional-dependence estimator, based on the
target dataset. The approach is validated during an oracle experiment with
controlled distortions and on two amateur-collected low-resource domains,
reaching better performances compared to the baselines in both cases.
- Abstract(参考訳): SSL(Self-Supervised Learning)は、少量の注釈付きデータセットであっても、大量のラベル付き音声データを活用して音声認識モデルの性能を向上させる。
これにもかかわらず、プレトレーニングとターゲットデータセットの音響ミスマッチに直面しながら、音声SSL表現が失敗する可能性がある。
そこで本研究では,音響領域におけるこのようなミスマッチを示すケースを対象とした,教師付きドメイン適応手法を提案する。
大きなクリーンなデータセットに適切に調整されたデータ拡張を適用し、ターゲットドメインに近づけ、初期微調整ステージの一部としてそれを使用する。
対象データセットに基づいて、条件依存推定器の最小化により拡張を自動的に選択する。
このアプローチは、oracleの実験で、制御された歪みと、2つのアマチュアが収集した低リソースドメインで検証され、両方のケースでベースラインよりも優れたパフォーマンスに達する。
関連論文リスト
- Progressive Multi-Level Alignments for Semi-Supervised Domain Adaptation SAR Target Recognition Using Simulated Data [3.1951121258423334]
我々は、ソースドメインインスタンスを対応するプロトタイプに近づけるために、インスタンス-プロトタイプアライメント(AIPA)戦略を開発する。
また、ソースドメインインスタンスを対応するプロトタイプに近づけるための、インスタンス-プロトタイプアライメント(AIPA)戦略も開発しています。
論文 参考訳(メタデータ) (2024-11-07T13:53:13Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Unsupervised Noise adaptation using Data Simulation [21.866522173387715]
本稿では,逆クリーン・ノイズ変換を効率よく学習するための生成逆ネットワークに基づく手法を提案する。
実験結果から,本手法はトレーニングセットとテストセット間のドメインミスマッチを効果的に軽減することが示された。
論文 参考訳(メタデータ) (2023-02-23T12:57:20Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Boosting Cross-Domain Speech Recognition with Self-Supervision [35.01508881708751]
自動音声認識(ASR)のクロスドメイン性能は,トレーニングとテストのミスマッチにより著しく損なわれる可能性がある。
従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。
この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:02:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。