論文の概要: Better Semi-supervised Learning for Multi-domain ASR Through Incremental Retraining and Data Filtering
- arxiv url: http://arxiv.org/abs/2506.04981v1
- Date: Thu, 05 Jun 2025 12:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.707329
- Title: Better Semi-supervised Learning for Multi-domain ASR Through Incremental Retraining and Data Filtering
- Title(参考訳): インクリメンタルリトレーニングとデータフィルタリングによるマルチドメインASRのための半教師付き学習の改善
- Authors: Andres Carofilis, Pradeep Rangappa, Srikanth Madikeri, Shashi Kumar, Sergio Burdisso, Jeena Prakash, Esau Villatoro-Tello, Petr Motlicek, Bidisha Sharma, Kadri Hacioglu, Shankar Venkatesan, Saurabh Vyas, Andreas Stolcke,
- Abstract要約: ラベル付きデータが不足している場合、特定のドメインに対する微調整済みのASRモデルは困難である。
本稿では,小さなドメイン内ラベル付きデータセットと,密接に関連するドメインからの補助データセットを統合した,段階的な半教師付き学習パイプラインを提案する。
- 参考スコア(独自算出の注目度): 11.50314008820538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pretrained ASR models for specific domains is challenging when labeled data is scarce. But unlabeled audio and labeled data from related domains are often available. We propose an incremental semi-supervised learning pipeline that first integrates a small in-domain labeled set and an auxiliary dataset from a closely related domain, achieving a relative improvement of 4% over no auxiliary data. Filtering based on multi-model consensus or named entity recognition (NER) is then applied to select and iteratively refine pseudo-labels, showing slower performance saturation compared to random selection. Evaluated on the multi-domain Wow call center and Fisher English corpora, it outperforms single-step fine-tuning. Consensus-based filtering outperforms other methods, providing up to 22.3% relative improvement on Wow and 24.8% on Fisher over single-step fine-tuning with random selection. NER is the second-best filter, providing competitive performance at a lower computational cost.
- Abstract(参考訳): ラベル付きデータが不足している場合、特定のドメインに対する微調整済みのASRモデルは困難である。
しかし、ラベルなしのオーディオと関連するドメインからのラベル付きデータは、しばしば利用可能である。
本稿では、まず、小さなドメイン内ラベル付きデータセットと、近縁なドメインから補助データセットを統合し、補助データに比較して4%の相対的な改善を達成できる漸進的な半教師付き学習パイプラインを提案する。
次に、多モデルコンセンサスに基づくフィルタリングや、名前付きエンティティ認識(NER)を適用して、擬似ラベルを選択・反復的に洗練し、ランダム選択と比較して性能飽和が遅いことを示す。
マルチドメインのWowコールセンターとFisher English corporaで評価され、シングルステップの微調整よりも優れています。
コンセンサスに基づくフィルタリングは他の手法よりも優れており、Wowでは22.3%、Fisherでは24.8%、ランダム選択ではシングルステップの微調整では24.8%である。
NERは2番目に高いフィルタであり、より低い計算コストで競争性能を提供する。
関連論文リスト
- Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering [11.50314008820538]
ラベル付きデータや計算資源が限られている小さな組織にとって、特定のドメインに対する微調整済みのASRモデルは困難である。
本稿では、WhisperとZipformerを用いて生成された擬似ラベルをフィルタリングすることで、ASR適応を改善する頑健なアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-04T08:11:24Z) - Unsupervised Domain Adaptive Person Search via Dual Self-Calibration [12.158126976694488]
Unsupervised Domain Adaptive (UDA) パーソンサーチは、ラベル付きソースドメインデータセットでトレーニングされたモデルを、追加のアノテーションなしでターゲットドメインデータセットに採用することに焦点を当てている。
最も効果的なUDA人物探索法は、典型的には、ソースドメインとクラスタリングから派生した擬似ラベルの基底真理を利用する。
ノイズの多い擬似ラベルの干渉を効果的に除去するUDA人物探索のためのDSCA(Dual Self-Calibration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T06:54:00Z) - Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement [19.277560848076984]
2段階の選択戦略は、選択したクエリとオブジェクトのミスマッチによるスケールバイアスと冗長性をもたらす。
本稿では,フィルタされた識別クエリのみにトランスフォーマーを符号化する階層型サリエンスフィルタリング精細化を提案する。
提案されたSalience DETRは、課題固有の3つのデータセットに対して、+4.0% AP、+0.2% AP、+4.4% APを大幅に改善する。
論文 参考訳(メタデータ) (2024-03-24T13:01:57Z) - Enhanced Federated Optimization: Adaptive Unbiased Client Sampling with Reduced Variance [37.646655530394604]
Federated Learning(FL)は、ローカルデータを収集することなく、複数のデバイスでグローバルモデルをトレーニングする分散学習パラダイムである。
独立サンプリング手法を用いて,最初の適応型クライアントサンプリング器K-Vibを提案する。
K-Vibは、一連の通信予算の中で、後悔すべき$tildemathcalObig(Nfrac13Tfrac23/Kfrac43big)$の線形スピードアップを達成する。
論文 参考訳(メタデータ) (2023-10-04T10:08:01Z) - FilFL: Client Filtering for Optimized Client Participation in Federated Learning [71.46173076298957]
フェデレートラーニングは、クライアントがローカルデータを交換することなく、協調的にモデルをトレーニングすることを可能にする。
トレーニングプロセスに参加するクライアントは、収束率、学習効率、モデル一般化に大きな影響を与えます。
本稿では,モデル一般化を改善し,クライアント参加とトレーニングを最適化する新しい手法であるクライアントフィルタリングを提案する。
論文 参考訳(メタデータ) (2023-02-13T18:55:31Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - Identifying Untrustworthy Samples: Data Filtering for Open-domain
Dialogues with Bayesian Optimization [28.22184410167622]
オープンドメイン対話のためのデータフィルタリング手法を提案する。
トレーニングサンプルを品質基準で評価し、下位順にソートし、下位でそれらをフィルタリングします。
2つのデータセットに対する実験結果から,本手法は信頼できないサンプルを効果的に同定できることが示唆された。
論文 参考訳(メタデータ) (2021-09-14T06:42:54Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - On Second-order Optimization Methods for Federated Learning [59.787198516188425]
フェデレート学習環境における局所的なステップを持つ2階分散手法の性能評価を行った。
本稿では,更新のための2階ローカル情報とグローバルライン検索を用いて,結果の局所的特異性に対処する新たな変種を提案する。
論文 参考訳(メタデータ) (2021-09-06T12:04:08Z) - Gradient Matching for Domain Generalization [93.04545793814486]
機械学習システムの重要な要件は、見えないドメインに一般化する能力です。
ドメインの一般化を目標とするドメイン間勾配マッチングの目的を提案する。
我々は、その最適化を近似する単純な一階アルゴリズムfishを導出する。
論文 参考訳(メタデータ) (2021-04-20T12:55:37Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。