論文の概要: Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering
- arxiv url: http://arxiv.org/abs/2506.03681v1
- Date: Wed, 04 Jun 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.221985
- Title: Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering
- Title(参考訳): 擬似ラベルと多段階フィルタリングを用いたASRの領域適応のための効率的なデータ選択
- Authors: Pradeep Rangappa, Andres Carofilis, Jeena Prakash, Shashi Kumar, Sergio Burdisso, Srikanth Madikeri, Esau Villatoro-Tello, Bidisha Sharma, Petr Motlicek, Kadri Hacioglu, Shankar Venkatesan, Saurabh Vyas, Andreas Stolcke,
- Abstract要約: ラベル付きデータや計算資源が限られている小さな組織にとって、特定のドメインに対する微調整済みのASRモデルは困難である。
本稿では、WhisperとZipformerを用いて生成された擬似ラベルをフィルタリングすることで、ASR適応を改善する頑健なアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.50314008820538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pretrained ASR models for specific domains is challenging for small organizations with limited labeled data and computational resources. Here, we explore different data selection pipelines and propose a robust approach that improves ASR adaptation by filtering pseudo-labels generated using Whisper (encoder-decoder) and Zipformer (transducer) models. Our approach integrates multiple selection strategies -- including word error rate (WER) prediction, named entity recognition (NER), and character error rate (CER) analysis -- to extract high-quality training segments. We evaluate our method on Whisper and Zipformer using a 7500-hour baseline, comparing it to a CER-based approach relying on hypotheses from three ASR systems. Fine-tuning on 7500 hours of pseudo-labeled call center data achieves 12.3% WER, while our filtering reduces the dataset to 100 hours (1.4%) with similar performance; a similar trend is observed on Fisher English.
- Abstract(参考訳): 限られたラベル付きデータと計算資源を持つ小さな組織にとって、特定のドメインに対する微調整済みのASRモデルは困難である。
本稿では,Whisper (encoder-decoder) モデルとZipformer (transducer) モデルを用いて生成した擬似ラベルをフィルタリングすることで,ASR適応を改善する頑健な手法を提案する。
提案手法は,単語誤り率(WER)予測,名前付きエンティティ認識(NER)解析,文字誤り率(CER)解析など,複数の選択戦略を統合し,高品質なトレーニングセグメントを抽出する。
我々は7500時間ベースラインを用いてWhisperとZipformerの手法を評価し、3つのASRシステムからの仮説に基づくCERベースのアプローチと比較した。
疑似ラベル付きコールセンターデータの7500時間の微調整は、12.3%のWERを達成する一方、我々のフィルタリングは、同様のパフォーマンスでデータセットを100時間 (1.4%) に短縮する。
関連論文リスト
- Improving Model Evaluation using SMART Filtering of Benchmark Datasets [19.731378662304497]
本稿では,既存のベンチマークデータセットから高品質なサンプルのサブセットを選択する新しい手法を提案する。
提案手法は3つのフィルタリング基準を適用し, (i) 簡単な例, (ii) データ汚染例, (iii) 互いに類似した例を除去する。
SMARTの3つの選択QAデータセットに対する有効性を示す。
論文 参考訳(メタデータ) (2024-10-26T18:21:44Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Train/Test-Time Adaptation with Retrieval [129.8579208970529]
Train/Test-Time Adaptation with Retrieval(rm T3AR$)を紹介します。
$rm T3AR$は、洗練された擬似ラベルと自己教師付きコントラスト目的関数を使用して、所定のモデルを下流タスクに適合させる。
検索モジュールのおかげで、ユーザまたはサービスプロバイダは、下流タスクのモデル適応を改善することができる。
論文 参考訳(メタデータ) (2023-03-25T02:44:57Z) - Improving Noisy Student Training on Non-target Domain Data for Automatic
Speech Recognition [6.506420603456938]
我々は,NSTの性能を向上させるため,LMフィルタというデータ選択手法を提案する。
AISHELL-1テストセットでは3.31%のCERが達成できます。
また、教師付き1000時間AISHELL-2データセットの評価を行い、CERの4.72%の競争結果を得ることができた。
論文 参考訳(メタデータ) (2022-11-09T07:23:15Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - GOLD: Improving Out-of-Scope Detection in Dialogues using Data
Augmentation [41.04593978694591]
金のテクニックは、既存のデータを拡張して、低データ状態で動作するより良いOOS検出器を訓練する。
3つのベンチマークを対象とした実験では、上位のGOLDモデルは、すべての主要なメトリクスで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-09-07T13:35:03Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees [17.152864798265455]
1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-06T14:17:41Z) - Collaborative Training between Region Proposal Localization and
Classification for Domain Adaptive Object Detection [121.28769542994664]
オブジェクト検出のためのドメイン適応は、ラベル付きデータセットからラベル付きデータセットへの検出を適応させようとする。
本稿では,地域提案ネットワーク (RPN) と地域提案分類器 (RPC) が,大きなドメインギャップに直面した場合の転送可能性が大きく異なることを初めて明らかにする。
論文 参考訳(メタデータ) (2020-09-17T07:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。