論文の概要: Contrastive Regularization for Accent-Robust ASR
- arxiv url: http://arxiv.org/abs/2605.03297v1
- Date: Tue, 05 May 2026 02:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.730077
- Title: Contrastive Regularization for Accent-Robust ASR
- Title(参考訳): アクセントロバストASRのコントラスト規則化
- Authors: Van-Phat Thai, Aradhya Dhruv, Duc-Thinh Pham, Sameer Alam,
- Abstract要約: 教師付きコントラスト学習(SupCon)をCTC微調整のための軽量・アクセント不変補助目的として検討した。
SupConはアクセントの堅牢性を改善するための効果的でモデルに依存しない正規化戦略を提供する。
- 参考スコア(独自算出の注目度): 5.302303646066551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR systems based on self-supervised acoustic pretraining and CTC fine-tuning achieve strong performance on native speech but remain sensitive to accent variability. We investigate supervised contrastive learning (SupCon) as a lightweight, accent-invariant auxiliary objective for CTC fine-tuning. An utterance-level contrastive loss regularizes encoder representations without architectural modification or explicit accent supervision. Experiments on the L2-ARCTIC benchmark show consistent WER reductions across multiple pretrained encoders, with up to 25 -- 29\% relative reduction under unseen-accent evaluation. Analysis using within-transcript cosine dispersion indicates that SupCon promotes more compact and stable representation geometry under accent variability. Overall, SupCon provides an effective and model-agnostic regularization strategy for improving accent robustness.
- Abstract(参考訳): 自己教師型音響プレトレーニングとCTCファインチューニングに基づくASRシステムは、ネイティブ音声に対して強い性能を発揮するが、アクセント変動に敏感である。
教師付きコントラスト学習(SupCon)をCTC微調整のための軽量・アクセント不変補助目的として検討した。
発話レベルのコントラスト損失は、アーキテクチャの変更や明示的なアクセントの監督なしにエンコーダ表現を規則化する。
L2-ARCTICベンチマークの実験では、複数の事前訓練エンコーダ間で一貫した WER の減少が見られ、不透明な評価の下では、最大 25-29 % の相対的な減少が見られた。
文字内コサイン分散を用いた解析は、SupConがアクセント可変の下でよりコンパクトで安定した表現幾何学を促進することを示唆している。
全体として、SupConはアクセントの堅牢性を改善するための効果的でモデルに依存しない正規化戦略を提供する。
関連論文リスト
- Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition [61.39209522608919]
統一音声認識は、音声、視覚、および聴覚の音声認識のための単一のモデルを訓練するための半教師付きフレームワークとして登場した。
そこでは,CTCの擬似ラベルをアテンションターゲットを生成するためにデコーダに入力するCTC駆動型教師強制方式を提案する。
CTCとCTC駆動のアテンション擬似ラベルは同じ長さであるため、デコーダは両方を同時に予測できる。
論文 参考訳(メタデータ) (2026-02-22T19:38:21Z) - Mixture-of-Experts with Intermediate CTC Supervision for Accented Speech Recognition [21.893229843453458]
我々は、専門家の専門化と一般化を共同で推進する中間的なCTC管理を備えたMue-Ctcアーキテクチャを紹介する。
トレーニング中、アクセントを意識したルーティングは、専門家にアクセント固有のパターンをキャプチャするよう促す。
Mcv-Accentベンチマークの実験では、低リソースと高リソースの条件下で、見かけと見えないアクセントの両方で一貫した利得を示し、FastConformerベースラインよりも29.3%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2026-02-02T11:16:34Z) - Listen, Attend, Understand: a Regularization Technique for Stable E2E Speech Translation Training on High Variance labels [0.49109372384514843]
Listen, Attend, Understand (LAU) は、学習中に音響エンコーダの潜在空間を制限する意味正規化技術である。
本研究では,ノンプロフェッショナルが翻訳したBambara-to- Frenchデータセットを30時間にわたって評価した。
論文 参考訳(メタデータ) (2026-01-03T08:45:59Z) - New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer [16.716653844774374]
クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T23:21:46Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。