論文の概要: MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR
- arxiv url: http://arxiv.org/abs/2505.24656v1
- Date: Fri, 30 May 2025 14:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.008194
- Title: MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR
- Title(参考訳): MSDA:ASRにおける非教師なしドメイン適応のための擬似ラベルと自己スーパービジョンの組み合わせ
- Authors: Dimitrios Damianos, Georgios Paraskevopoulos, Alexandros Potamianos,
- Abstract要約: 本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。
MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。
本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 59.83547898874152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the Meta PL unsupervised domain adaptation framework for Automatic Speech Recognition (ASR). We introduce a Multi-Stage Domain Adaptation pipeline (MSDA), a sample-efficient, two-stage adaptation approach that integrates self-supervised learning with semi-supervised techniques. MSDA is designed to enhance the robustness and generalization of ASR models, making them more adaptable to diverse conditions. It is particularly effective for low-resource languages like Greek and in weakly supervised scenarios where labeled data is scarce or noisy. Through extensive experiments, we demonstrate that Meta PL can be applied effectively to ASR tasks, achieving state-of-the-art results, significantly outperforming state-of-the-art methods, and providing more robust solutions for unsupervised domain adaptation in ASR. Our ablations highlight the necessity of utilizing a cascading approach when combining self-supervision with self-training.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)のためのメタPL非教師付きドメイン適応フレームワークについて検討する。
サンプル効率のよい2段階適応手法であるMulti-Stage Domain Adaptation Pipeline (MSDA)を導入する。
MSDAは、ASRモデルの堅牢性と一般化を強化し、様々な条件に適応できるように設計されている。
これは、ギリシャ語のような低リソース言語や、ラベル付きデータが乏しい、あるいは騒がしい弱い教師付きシナリオに特に有効である。
広範な実験を通じて,メタPLがASRタスクに効果的に適用され,最先端の成果が得られ,最先端の手法が大幅に向上し,ASRにおける教師なしドメイン適応のための堅牢なソリューションが提供されることを示した。
自己超越と自己学習を組み合わせる際に,カスケードアプローチを活用する必要性を強調した。
関連論文リスト
- RAAD-LLM: Adaptive Anomaly Detection Using LLMs and RAG Integration [2.879328762187361]
本稿では,適応型異常検出のための新しいフレームワークであるRAAD-LLMを提案する。
ドメイン固有の知識を効果的に活用することにより、RAAD-LLMは時系列データにおける異常の検出を強化する。
実際のデータセットでは,70.7%から88.6%に精度が向上した。
論文 参考訳(メタデータ) (2025-03-04T17:20:43Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Hybrid-TTA: Continual Test-time Adaptation via Dynamic Domain Shift Detection [14.382503104075917]
継続的テスト時間適応(CTTA)は、制御されたトレーニング環境と実世界のシナリオの間のドメインギャップを埋めるための重要なアプローチとして登場した。
本稿では,最適適応のためのインスタンスワイドチューニング手法を動的に選択する総合的手法であるHybrid-TTAを提案する。
提案手法は,Cityscapes-to-ACDCベンチマークデータセットにおけるmIoUの1.6%改善を実現する。
論文 参考訳(メタデータ) (2024-09-13T06:36:31Z) - EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:29:28Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Instance Adaptive Self-Training for Unsupervised Domain Adaptation [19.44504738538047]
セマンティックセグメンテーションの課題に対して,UDAのためのインスタンス適応型自己学習フレームワークを提案する。
擬似ラベルの品質を効果的に向上するために,インスタンス適応セレクタを用いた新しい擬似ラベル生成戦略を開発した。
我々の手法は簡潔で効率的であり、他の教師なし領域適応法に容易に一般化できる。
論文 参考訳(メタデータ) (2020-08-27T15:50:27Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。