論文の概要: When Less Is More? Diagnosing ASR Predictions in Sardinian via Layer-Wise Decoding
- arxiv url: http://arxiv.org/abs/2602.10350v1
- Date: Tue, 10 Feb 2026 22:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.324498
- Title: When Less Is More? Diagnosing ASR Predictions in Sardinian via Layer-Wise Decoding
- Title(参考訳): サージニアンのASR予測をレイヤーワイズデコーディングで診断する
- Authors: Domenico De Cristofaro, Alessandro Vietti, Marianne Pouplier, Aleese Block,
- Abstract要約: 多言語音声モデルの中間層は、最終的な出力層よりも音声的に正確な表現を符号化することが多い。
上変圧器層をトラッピングするとPhonme Error Rates (PER) が向上し, 最良性能は最終層ではなく, 2層先に達成された。
- 参考スコア(独自算出の注目度): 39.94212430129149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that intermediate layers in multilingual speech models often encode more phonetically accurate representations than the final output layer. In this work, we apply a layer-wise decoding strategy to a pretrained Wav2Vec2 model to investigate how phoneme-level predictions evolve across encoder layers, focusing on Campidanese Sardinian, a low-resource language. We show that truncating upper transformer layers leads to improved Phoneme Error Rates (PER), with the best performance achieved not at the final layer, but two layers earlier. Through fine-grained alignment analysis, we find that intermediate predictions better preserve segmental identity, avoid overgeneration, and reduce certain classes of phonological errors. We also introduce the notion of regressive errors, cases where correct predictions at intermediate layers are overwritten by errors at the final layer. These regressions highlight the limitations of surface-level error metrics and reveal how deeper layers may generalize or abstract away from acoustic detail. Our findings support the use of early-layer probing as a diagnostic tool for ASR models, particularly in low-resource settings where standard evaluation metrics may fail to capture linguistically meaningful behavior.
- Abstract(参考訳): 近年の研究では、多言語音声モデルの中間層は、最終的な出力層よりも音声的に正確な表現を符号化することが多い。
本研究では,低リソース言語である Campidanese Sardinian に着目し,音素レベルの予測がエンコーダ層間でどのように進化するかを,事前訓練した Wav2Vec2 モデルに適用する。
上変圧器層をトラッピングするとPhonme Error Rates (PER) が向上し, 最良性能は最終層ではなく, 2層先に達成された。
微粒なアライメント解析により、中間予測はセグメントのアイデンティティをよりよく保存し、過剰発生を回避し、特定の音韻的誤りのクラスを減らすことができる。
また、中間層における正しい予測が最終層におけるエラーによって上書きされる場合の回帰誤差の概念も導入する。
これらの回帰は、表面レベルのエラーメトリクスの限界を強調し、より深い層が音響的詳細からいかに一般化または抽象化されるかを明らかにする。
特に,標準評価基準が言語学的に有意な振る舞いを捉えられなかった場合の低リソース環境において,ASRモデルの診断ツールとして早期層探索が有効であることを示す。
関連論文リスト
- LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
我々のフレームワークは、各層が情報圧縮と信号保存のバランスをとる方法を強調し、なぜ中層埋め込みが最終層の性能を上回るのかを明らかにする。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。