論文の概要: Mechanistic Interpretability of ASR models using Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2605.12225v1
- Date: Tue, 12 May 2026 15:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.943325
- Title: Mechanistic Interpretability of ASR models using Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いたASRモデルの機械論的解釈可能性
- Authors: Dan Pluth, Zachary Nicholas Houghton, Yu Zhou, Vijay K. Gurbani,
- Abstract要約: ディープトランスフォーマーに基づくNLPモデルの内部メカニズムは、大半が謎のままである。
スパースオートエンコーダ(SAE)は、密度の高い表現をスパースベクトルに投影することで、これらのメカニズムを理解するために登場した。
本研究では、トランスフォーマーベースのASRであるWhisperにSAEを適用し、Whisperエンコーダから抽出したフレームレベルの埋め込みに対して、高次元のスパース潜在空間をトレーニングする。
- 参考スコア(独自算出の注目度): 2.835219195516112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the internal machinations of deep Transformer-based NLP models is more crucial than ever as these models see widespread use in various domains that affect the public at large, such as industry, academia, finance, health. While these models have advanced rapidly, their internal mechanisms remain largely a mystery. Techniques such as Sparse Autoencoders (SAE) have emerged to understand these mechanisms by projecting dense representations into a sparse vector. While existing research has demonstrated the viability of the SAE in interpreting text-based Large Language Models (LLMs), there are no equivalent studies that demonstrate the application of a SAE to audio processing models like Automatic Speech Recognizers (ASRs). In this work, a SAE is applied to Whisper, a Transformer-based ASR, training a high-dimensional sparse latent space on frame-level embeddings extracted from the Whisper encoder. Our work uncovers diverse monosemantic features across linguistic and non-linguistic boundaries, and demonstrates cross-lingual feature steering. This work establishes the viability of a SAE model and demonstrates that Whisper encodes a rich amount of linguistic information.
- Abstract(参考訳): ディープトランスフォーマーベースのNLPモデルの内部構造を理解することは、業界、アカデミック、ファイナンス、健康など、一般に影響を及ぼす様々な領域で広く使われていることを考えると、これまで以上に重要である。
これらのモデルは急速に進歩してきたが、その内部メカニズムの大部分は謎のままである。
スパースオートエンコーダ (SAE) のような手法は、密度の高い表現をスパースベクトルに投影することで、これらのメカニズムを理解するために登場した。
既存の研究は、テキストベースのLarge Language Models (LLM) の解釈におけるSAEの有効性を実証しているが、自動音声認識(ASR)のような音声処理モデルへのSAEの適用を実証する同等の研究は存在しない。
本研究では、トランスフォーマーベースのASRであるWhisperにSAEを適用し、Whisperエンコーダから抽出したフレームレベルの埋め込みに対して、高次元のスパース潜在空間をトレーニングする。
本研究は言語的・非言語的境界にまたがる多様な単意味的特徴を明らかにし,言語間の特徴的ステアリングを実証する。
この研究は、SAEモデルの生存可能性を確立し、Whisperが豊富な言語情報をエンコードしていることを示す。
関連論文リスト
- Qwen-Scope: Turning Sparse Features into Development Tools for Large Language Models [80.45129499188461]
我々はQwenモデルファミリ上に構築されたスパースオートエンコーダ(SAE)のオープンソーススイートであるQwen-Scopeを紹介する。
SAEはポストホック解析を超越して,4方向のモデル開発のための実用的なインターフェースとして機能することを示す。
論文 参考訳(メタデータ) (2026-05-12T10:01:06Z) - Learning Retrieval Models with Sparse Autoencoders [9.69714089726174]
SPLAREは、SAEベースのLSRモデルをトレーニングする方法である。
SPLARE は語彙ベースの LSR を多言語およびドメイン外設定で一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-27T10:50:54Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Sparse Autoencoder Insights on Voice Embeddings [3.2377830280631468]
本研究では,タイタネットモデルから発生する話者埋め込みに対して,スパースオートエンコーダを適用した。
抽出した特徴は, 特徴分割やステアリングなど, 大規模言語モデルの埋め込みに類似した特徴を示す。
解析の結果,オートエンコーダは言語や音楽などの特徴を識別・操作できることがわかった。
論文 参考訳(メタデータ) (2025-01-31T19:21:43Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。