Fugu-MT 論文翻訳(概要): Where Do Self-Supervised Speech Models Become Unfair?

論文の概要: Where Do Self-Supervised Speech Models Become Unfair?

arxiv url: http://arxiv.org/abs/2604.18249v1
Date: Mon, 20 Apr 2026 13:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.900338
Title: Where Do Self-Supervised Speech Models Become Unfair?
Title（参考訳）: 自己監督型音声モデルはどこで不自由になるのか?
Authors: Felix Herron, Maja Hjuler, Solange Rossato, Alexandre Allauzen, François Portet,
Abstract要約: 音声エンコーダモデルは、一部の話者グループ(SG)のメンバーを他のモデルよりも良くモデル化することが知られている。事前学習型自己教師型音声エンコーダモデル(S3Ms)の第1階層フェアネス解析について述べる。 S3Msは、両方のタスクに対して特定のSGに偏った埋め込みを生成します。
参考スコア（独自算出の注目度）: 44.43436255222398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech encoder models are known to model members of some speaker groups (SGs) better than others. However, there has been little work in establishing why this occurs on a technological level. To our knowledge, we present the first layerwise fairness analysis of pretrained self-supervised speech encoder models (S3Ms), probing each embedding layer for speaker identification (SID) automatic speech recognition (ASR). We find S3Ms produce embeddings biased against certain SGs for both tasks, starting at the very first latent layers. Furthermore, we find opposite patterns of layerwise bias for SID vs ASR for all models in our study: SID bias is minimized in layers that minimize overall SID error; on the other hand, ASR bias is maximized in layers that minimize overall ASR error. The inverse bias/error relationship for ASR is unaffected when probing S3Ms that are finetuned for ASR, suggesting SG-level bias is established during pretraining and is difficult to remove.
Abstract（参考訳）: 音声エンコーダモデルは、一部の話者グループ(SG)のメンバーを他のモデルよりも良くモデル化することが知られている。しかし、これが技術レベルで発生した理由を確定する作業はほとんど行われていない。本稿では,事前学習した自己教師型音声エンコーダモデル(S3Ms)について,話者識別(SID)自動音声認識(ASR)のための各埋め込み層を提案する。 S3Msは、両方のタスクに対して特定のSGに偏った埋め込みを生成します。 SIDバイアスは全体のSIDエラーを最小限に抑えるレイヤで最小化されるが、一方、ASRバイアスは全体のASRエラーを最小限に抑えるレイヤで最大化される。 ASRの逆バイアス/エラー関係は、ASRに微調整されたS3Mを探索する際には影響を受けず、事前訓練中にSGレベルのバイアスが確立され、除去が困難であることが示唆されている。

関連論文リスト

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction [20.04650481108717]
本稿では,中国語におけるASR誤り訂正について検討する。我々の知る限りでは、中国初のASRエラー訂正ベンチマークである。近年の言語モデル(LLM)の進歩に触発されて,LLMのパワーを利用してASRの誤りを訂正する方法を検討する。
論文参考訳（メタデータ） (2024-12-04T06:52:10Z)
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition [21.516152600963775]
Denoising LM (DLM) は大量の合成データで訓練された$textitscaled$エラー補正モデルである。 DLMは、$textittest-clean$で1.5%のワードエラー率(WER)、$textittest-other$で3.3%のWERを達成する。
論文参考訳（メタデータ） (2024-05-24T05:05:12Z)
ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。 3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-19T16:53:35Z)
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文参考訳（メタデータ） (2023-06-12T01:55:53Z)
Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。 D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文参考訳（メタデータ） (2020-10-30T20:26:28Z)
Semi-Supervised Spoken Language Understanding via Self-Supervised Speech and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文参考訳（メタデータ） (2020-10-26T18:21:27Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。