論文の概要: ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.03359v1
- Date: Sat, 28 Feb 2026 07:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.015616
- Title: ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition
- Title(参考訳): ACES:自動音声認識におけるカップリング,説明,ストレステストのためのアクセント部分空間
- Authors: Swapnil Parekh,
- Abstract要約: 本稿ではアクセント識別サブ空間を抽出する表現中心監査ACESを紹介する。
アクセント情報は低次元のアーリー層部分空間に集中していることがわかった。
以上の結果から,アクセント関連の特徴は認識クリティカルな手がかりと深く絡み合っていることが示唆された。
- 参考スコア(独自算出の注目度): 1.3011345529764784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR systems exhibit persistent performance disparities across accents, yet the internal mechanisms underlying these gaps remain poorly understood. We introduce ACES, a representation-centric audit that extracts accent-discriminative subspaces and uses them to probe model fragility and disparity. Analyzing Wav2Vec2-base with five English accents, we find that accent information concentrates in a low-dimensional early-layer subspace (layer 3, k=8). Projection magnitude correlates with per-utterance WER (r=0.26), and crucially, subspace-constrained perturbations yield stronger coupling between representation shift and degradation (r=0.32) than random-subspace controls (r=0.15). Finally, linear attenuation of this subspace however does not reduce disparity and slightly worsens it. Our findings suggest that accent-relevant features are deeply entangled with recognition-critical cues, positioning accent subspaces as vital diagnostic tools rather than simple "erasure" levers for fairness.
- Abstract(参考訳): ASRシステムはアクセント間での持続的な性能格差を示すが、これらのギャップの根底にある内部メカニズムはいまだに理解されていない。
アクセントを識別する部分空間を抽出する表現中心の監査システムであるACESを導入する。
5つの英語アクセントを持つWav2Vec2ベースを解析したところ、アクセント情報は低次元のアーリー層部分空間(層3, k=8)に集中していることがわかった。
射影の大きさは、発話ごとのWER(r=0.26)と相関し、重要なことに、サブスペース制約による摂動は、ランダムなサブスペース制御(r=0.15)よりも、表現シフトと分解(r=0.32)の間により強い結合をもたらす。
最後に、この部分空間の線型減衰は相違を減少させ、それをわずかに悪化させることはない。
以上の結果から,アクセント関連の特徴は認識クリティカルな手がかりと深く絡み合っており,アクセント部分空間をフェアネスのための単純な「評価」レバーではなく,重要な診断ツールとして位置づけていることが示唆された。
関連論文リスト
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - Breaking Semantic Hegemony: Decoupling Principal and Residual Subspaces for Generalized OOD Detection [10.596067236901968]
最先端(SOTA)モデルにおける単純度パラドックスについて検討する。
モデルは、意味的に微妙なOODサンプルを区別する上で、鋭い感度を示すが、厳密な幾何学的盲点に苦しむ。
そこで我々は,D-KNNを提案する。
論文 参考訳(メタデータ) (2026-02-05T06:32:33Z) - Decomposing Query-Key Feature Interactions Using Contrastive Covariances [75.38737409771085]
クエリとキー間の双方向のジョイント埋め込み空間であるクエリキー空間について検討する。
キーとクエリの機能がこれらの低ランクのサブスペースに整列して、高い注目スコアが生成されるときです。
論文 参考訳(メタデータ) (2026-02-04T16:50:02Z) - Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs [27.02559478797257]
大型言語モデル(LLM)における注意シンクと大規模アクティベーションに関する研究
我々は,BOSと他のトークンとのコサイン類似性を低減し,中間シンクと大規模な活性化を効果的に緩和する単純なデコリレーション損失を導入する。
提案手法は,低サンプリングレートで安定に保ちながら,高い音声・視覚特性下での単語誤り率(WER)を向上する。
論文 参考訳(メタデータ) (2025-10-26T09:44:20Z) - H-SPLID: HSIC-based Saliency Preserving Latent Information Decomposition [14.354594756653043]
H-SPLIDは、有意な特徴と非有意な特徴を明確に分解することで、有意な特徴表現を学習するアルゴリズムである。
我々は,H-SPLIDが低次元タスク関連特徴の学習を促進することを示す。
論文 参考訳(メタデータ) (2025-10-23T15:02:07Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。