論文の概要: Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2510.08047v1
- Date: Thu, 09 Oct 2025 10:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.012529
- Title: Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
- Title(参考訳): Pseudo2Real:自動音声認識における擬似ラベル補正のためのタスク算術
- Authors: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee,
- Abstract要約: 現実世界のシステムは、ラベル付きデータに制限のある、目に見えないアクセントとドメインに遭遇する。
擬似ラベルは、しばしばフィルタリングが修正に失敗するシステマティックでアクセント固有のエラーをもたらす。
そこで本研究では,これらの繰り返しバイアスを目的の真理を含まない簡単なパラメータ空間補正を提案する。
- 参考スコア(独自算出の注目度): 61.712328155788434
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.
- Abstract(参考訳): ドメインシフト下でのロバストASRは、実世界のシステムは目に見えないアクセントと限られたラベル付きデータを持つドメインに遭遇するため、非常に重要である。
擬似ラベルは実用的な回避策を提供するが、しばしばフィルタリングが修正に失敗するシステマティックでアクセント固有のエラーをもたらす。
私たちは、これらの繰り返しバイアスを、ターゲットとなる根拠の真理なしにどのように修正できるのか?
実データと擬似ラベル付きデータの両方を含むソース領域において、2つのASRモデルが同一初期化から微調整され、1つは地中ラベル、もう1つは擬似ラベルで、重み差は擬似ラベルバイアスをキャプチャする補正ベクトルを形成する。
擬似ラベル付きターゲットモデルに適用すると、このベクトルは認識を高め、Whisperの小さなモデルで10のアフリカのアクセントでAfriSpeech-200の単語誤り率(WER)を最大35%削減する。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Combating Confirmation Bias: A Unified Pseudo-Labeling Framework for Entity Alignment [30.407534668054286]
エンティティアライメントのための統一擬似ラベルフレームワーク(UPL-EA)を提案する。
UPL-EAは、エンティティアライメントの精度を高めるために、擬似ラベルエラーを明示的に排除する。
以上の結果から,UPL-EAが15の競争ベースラインに優越していることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T07:32:34Z) - Robust Target Training for Multi-Source Domain Adaptation [110.77704026569499]
両レベル最適化に基づく新しいMSDAのためのロバスト目標訓練法(BORT$2$)を提案する。
提案手法は,大規模なDomainNetデータセットを含む3つのMSDAベンチマークにおいて,アートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2022-10-04T15:20:01Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。