論文の概要: Beyond Transcription: Mechanistic Interpretability in ASR
- arxiv url: http://arxiv.org/abs/2508.15882v1
- Date: Thu, 21 Aug 2025 15:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.144915
- Title: Beyond Transcription: Mechanistic Interpretability in ASR
- Title(参考訳): Beyond Transcription: ASRにおけるメカニスティック解釈可能性
- Authors: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon,
- Abstract要約: 解釈可能性の手法は、特に大規模言語モデルの文脈において、近年大きな注目を集めている。
我々は,ASRシステムの層間における音響的・意味的情報がどのように進化するかを検証するために,確立された解釈可能性手法を適用し,適用する。
実験の結果,音響表現の奥深くにエンコーダとデコーダの相互作用が繰り返し幻覚や意味的バイアスに関係していることが明らかとなった。
- 参考スコア(独自算出の注目度): 26.551400592078213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpretability methods such as logit lens, linear probing, and activation patching, to examine how acoustic and semantic information evolves across layers in ASR systems. Our experiments reveal previously unknown internal dynamics, including specific encoder-decoder interactions responsible for repetition hallucinations and semantic biases encoded deep within acoustic representations. These insights demonstrate the benefits of extending and applying interpretability techniques to speech recognition, opening promising directions for future research on improving model transparency and robustness.
- Abstract(参考訳): 解釈可能性の手法は、特に大きな言語モデルの文脈において、言語表現、誤り検出、幻覚や反復のようなモデル行動に関する洞察を可能にすることに、近年大きな注目を集めている。
しかし、これらの手法は、ASRシステムの性能と解釈可能性の両方を前進させる可能性があるにもかかわらず、自動音声認識(ASR)では未熟なままである。
本研究では,ロジットレンズ,線形プローブ,アクティベーションパッチなどの確立された解釈可能性手法を適応し,体系的に適用し,ASRシステムの層間における音響的・意味的情報がどのように進化するかを検討する。
実験の結果,音響表現の奥深くにエンコーダとデコーダの相互作用が繰り返し幻覚や意味的バイアスに関係していることが明らかとなった。
これらの知見は、音声認識に解釈可能性技術を拡張し、適用することの利点を示し、モデルの透明性と堅牢性を改善するための将来の研究のための有望な方向を開く。
関連論文リスト
- Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Articulation-Informed ASR: Integrating Articulatory Features into ASR via Auxiliary Speech Inversion and Cross-Attention Fusion [7.505518573248786]
我々は深層学習の時代に音声情報を再考する。
本稿では,音声認識モデルに対する補助的タスクと擬似インプットの両方として,調音表現を利用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T21:07:29Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation [48.806000388608005]
提案するX-Agentは,「潜時意味認識エージェント」を用いてモーダル間注意機構を編成する,革新的なOVSSフレームワークである。
X-Agentは最先端のパフォーマンスを実現し、潜伏したセマンティックサリエンシを効果的に強化する。
論文 参考訳(メタデータ) (2025-09-01T09:01:58Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。