Fugu-MT 論文翻訳(概要): Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation

論文の概要: Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation

arxiv url: http://arxiv.org/abs/2602.13263v1
Date: Tue, 03 Feb 2026 21:35:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.597196
Title: Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation
Title（参考訳）: ASRアクセント適応のためのマルチモーダル一貫性誘導参照自由データ選択
Authors: Ligong Lei, Wenwen Lu, Xudong Pang, Zaokere Kadeer, Aishan Wumaier,
Abstract要約: ASRアクセント適応のためのマルチモーダル整合性誘導型参照フリーデータ選択パイプラインを提案する。パイプラインは、共有埋め込み空間における音声テキストアライメントと予測された単語エラー率の2つの基準自由信号を用いて、各仮説をスコアする。単純なパーセンタイルベースの選択規則は、ノイズ発声を排除しながら微調整のための信頼できる擬似ラベルを保持する。
参考スコア（独自算出の注目度）: 0.05219568203653524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) systems often degrade on accented speech because acoustic-phonetic and prosodic shifts induce a mismatch to training data, making labeled accent adaptation costly. However, common pseudo-label selection heuristics are largely text-centric (e.g., perplexity (PPL) filtering) and can prefer fluent yet acoustically mismatched hypotheses, leading to error amplification when fine-tuning. To address this, we introduce a multimodal consistency-guided, reference-free data selection pipeline for ASR accent adaptation under a transductive, label-free protocol. The pipeline starts with a target-aware preselection step based on submodular mutual information to improve query relevance and reduce downstream computation. It then generates multiple pseudo-transcriptions per utterance via perturbation-based decoding and scores each hypothesis using two reference-free signals: speech--text alignment in a shared embedding space and predicted word error rate (WER). A simple percentile-based selection rule retains reliable pseudo-labels for fine-tuning while discarding noisy utterances. In an in-domain setting, selecting ~1.5k utterances from a 30k pool achieves 10.91% WER, close to 10.45% obtained using 30k supervised labels. In a cross-domain setting with a mismatched candidate pool, consistency-filtered subsets avoid the degradation caused by unfiltered pseudo-labels under strong accent shift, and matched-hour experiments on a stronger ASR backbone further confirm gains over random sampling and recent selection baselines.
Abstract（参考訳）: 自動音声認識(ASR)システムは、音声と韻律のシフトによってトレーニングデータにミスマッチが生じ、アクセント適応がコストがかかるため、アクセント付き音声で劣化することが多い。しかし、一般的な擬似ラベル選択ヒューリスティックスは、主にテキスト中心(例えば、パープレキシティ(PPL)フィルタリング)であり、流線型だが音響的にミスマッチした仮説を好んでおり、微調整時に誤りの増幅につながる。そこで我々は,ASRアクセント適応のためのマルチモーダル整合性誘導型参照フリーデータ選択パイプラインを,トランスダクティブなラベルフリープロトコルの下で導入する。パイプラインは、クエリの関連性を改善し、ダウンストリーム計算を減らすために、サブモジュールの相互情報に基づいて、ターゲットを意識した事前選択ステップから始まる。次に、摂動に基づく復号法により発話毎に複数の擬似転写を生成し、2つの参照のない信号を用いて各仮説をスコアする: 共有埋め込み空間における音声テキストアライメントと予測単語エラー率(WER)である。単純なパーセンタイルベースの選択規則は、ノイズ発声を排除しながら微調整のための信頼できる擬似ラベルを保持する。ドメイン内の設定では、30kプールから1.5kの発話を選択すると10.91%のWERが得られる。整合性のある候補プールを持つクロスドメイン設定において、整合性フィルタされたサブセットは、強いアクセントシフトの下での非整合性擬似ラベルによる劣化を回避し、強いASRバックボーン上での整合時間実験により、ランダムサンプリングと最近の選択ベースラインの利得をさらに確認する。

関連論文リスト

A Neural Model for Contextual Biasing Score Learning and Filtering [11.862176451777286]
ASRエンコーダから抽出された音響情報に基づいて,アテンションに基づくバイアスデコーダを用いて候補句のスコアを生成する。本研究では, 乱れを抑えつつ, 接地句の高得点を奨励する, 単語ごとの識別目標を提案する。我々の手法はモジュラーであり、任意のASRシステムで使用することができ、フィルタ機構は他のバイアス法の性能を高める可能性がある。
論文参考訳（メタデータ） (2025-10-27T20:41:52Z)
MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文参考訳（メタデータ） (2025-10-12T09:05:28Z)
Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering [11.50314008820538]
ラベル付きデータや計算資源が限られている小さな組織にとって、特定のドメインに対する微調整済みのASRモデルは困難である。本稿では、WhisperとZipformerを用いて生成された擬似ラベルをフィルタリングすることで、ASR適応を改善する頑健なアプローチを提案する。
論文参考訳（メタデータ） (2025-06-04T08:11:24Z)
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。現在、セパレータはASR性能を劣化させるアーティファクトを生産している。本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文参考訳（メタデータ） (2024-06-13T08:20:58Z)
Iterative pseudo-forced alignment by acoustic CTC loss for self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文参考訳（メタデータ） (2022-10-27T07:23:08Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文参考訳（メタデータ） (2021-11-22T15:49:20Z)
Single-channel speech separation using Soft-minimum Permutation Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。 Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-16T17:25:05Z)
Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文参考訳（メタデータ） (2021-04-21T03:05:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。