論文の概要: ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.03359v2
- Date: Sat, 07 Mar 2026 02:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:41:26.127418
- Title: ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition
- Title(参考訳): ACES:自動音声認識におけるカップリング,説明,ストレステストのためのアクセント部分空間
- Authors: Swapnil Parekh,
- Abstract要約: ASR表現からアクセントを識別する部分空間を抽出する3段階監査であるACESを紹介する。
7つのアクセントを持つWav2Vec2ベースでは、知覚不能な摂動はWERの格差を50%近く増幅する。
部分的な部分空間の除去は、WERと格差の両方を悪化させ、アクセント差別的かつ認識クリティカルな特徴が深く絡み合っていることが明らかになった。
- 参考スコア(独自算出の注目度): 1.3011345529764784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR systems exhibit persistent performance disparities across accents, but whether these gaps reflect superficial biases or deep structural vulnerabilities remains unclear. We introduce ACES, a three-stage audit that extracts accent-discriminative subspaces from ASR representations, constrains adversarial attacks to them, and tests whether removing them improves fairness. On Wav2Vec2-base with seven accents, imperceptible perturbations (~60 dB SNR) along the accent subspace amplify the WER disparity gap by nearly 50% (21.3->31.8 pp), exceeding random-subspace controls; a permuted-label test confirms specificity to genuine accent structure. Partially removing the subspace worsens both WER and disparity, revealing that accent-discriminative and recognition-critical features are deeply entangled. ACES thus positions accent subspaces as powerful fairness-auditing tools, not simple erasure levers.
- Abstract(参考訳): ASRシステムはアクセント間の持続的な性能格差を示すが、これらのギャップが表面バイアスや深い構造的脆弱性を反映しているかどうかは不明である。
ACESは,アクセントを識別する部分空間をASR表現から抽出する3段階の監査,敵攻撃の制約,削除が公平性を改善するかどうかの検証を行う。
7つのアクセントを持つ Wav2Vec2 ベースでは、アクセント部分空間に沿った知覚不能な摂動 (~60 dB SNR) が WER の格差を50%(21.3->31.8 pp)近く増幅し、ランダムなサブスペース制御を超えた。
部分的な部分空間の除去は、WERと格差の両方を悪化させ、アクセント差別的かつ認識クリティカルな特徴が深く絡み合っていることが明らかになった。
ACESはアクセント部分空間を、単純な消去レバーではなく、強力な公正監査ツールとして位置づける。
関連論文リスト
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - Breaking Semantic Hegemony: Decoupling Principal and Residual Subspaces for Generalized OOD Detection [10.596067236901968]
最先端(SOTA)モデルにおける単純度パラドックスについて検討する。
モデルは、意味的に微妙なOODサンプルを区別する上で、鋭い感度を示すが、厳密な幾何学的盲点に苦しむ。
そこで我々は,D-KNNを提案する。
論文 参考訳(メタデータ) (2026-02-05T06:32:33Z) - Decomposing Query-Key Feature Interactions Using Contrastive Covariances [75.38737409771085]
クエリとキー間の双方向のジョイント埋め込み空間であるクエリキー空間について検討する。
キーとクエリの機能がこれらの低ランクのサブスペースに整列して、高い注目スコアが生成されるときです。
論文 参考訳(メタデータ) (2026-02-04T16:50:02Z) - Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs [27.02559478797257]
大型言語モデル(LLM)における注意シンクと大規模アクティベーションに関する研究
我々は,BOSと他のトークンとのコサイン類似性を低減し,中間シンクと大規模な活性化を効果的に緩和する単純なデコリレーション損失を導入する。
提案手法は,低サンプリングレートで安定に保ちながら,高い音声・視覚特性下での単語誤り率(WER)を向上する。
論文 参考訳(メタデータ) (2025-10-26T09:44:20Z) - H-SPLID: HSIC-based Saliency Preserving Latent Information Decomposition [14.354594756653043]
H-SPLIDは、有意な特徴と非有意な特徴を明確に分解することで、有意な特徴表現を学習するアルゴリズムである。
我々は,H-SPLIDが低次元タスク関連特徴の学習を促進することを示す。
論文 参考訳(メタデータ) (2025-10-23T15:02:07Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。