論文の概要: Mechanistic Interpretability of Brain-to-Speech Models Across Speech Modes
- arxiv url: http://arxiv.org/abs/2602.01247v1
- Date: Sun, 01 Feb 2026 14:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.678192
- Title: Mechanistic Interpretability of Brain-to-Speech Models Across Speech Modes
- Title(参考訳): 脳音声モデルにおける音声モード間の機械的解釈可能性
- Authors: Maryam Maghsoudi, Ayushi Mishra,
- Abstract要約: 我々は、機械的解釈可能性を用いて、ニューラル音声デコーダの内部表現を因果的に調査する。
我々は、音声モード間の内部アクティベーションのクロスモードアクティベーションパッチを行い、トリオモーダルを用いて、音声表現が離散的に、または連続的に変化するかどうかを調べる。
その結果, 音声モードは共用連続因果多様体上に存在し, クロスモード転送は拡散活性ではなく, コンパクトで層特異的な部分空間によって媒介されることがわかった。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-to-speech decoding models demonstrate robust performance in vocalized, mimed, and imagined speech; yet, the fundamental mechanisms via which these models capture and transmit information across different speech modalities are less explored. In this work, we use mechanistic interpretability to causally investigate the internal representations of a neural speech decoder. We perform cross-mode activation patching of internal activations across speech modes, and use tri-modal interpolation to examine whether speech representations vary discretely or continuously. We use coarse-to-fine causal tracing and causal scrubbing to find localized causal structure, allowing us to find internal subspaces that are sufficient for cross-mode transfer. In order to determine how finely distributed these effects are within layers, we perform neuron-level activation patching. We discover that small but not distributed subsets of neurons, rather than isolated units, affect the cross-mode transfer. Our results show that speech modes lie on a shared continuous causal manifold, and cross-mode transfer is mediated by compact, layer-specific subspaces rather than diffuse activity. Together, our findings give a causal explanation for how speech modality information is organized and used in brain-to-speech decoding models, revealing hierarchical and direction-dependent representational structure across speech modes.
- Abstract(参考訳): 脳から音声への復号モデルは、発声、緩和、想像された音声における頑健な性能を示すが、これらのモデルが異なる音声モダリティ間で情報を取り込み伝達する基本的なメカニズムは研究されていない。
本研究では,ニューラル音声デコーダの内部表現を因果的に解析するために,機械論的解釈可能性を用いる。
我々は、音声モード間の内部アクティベーションのクロスモードアクティベーションパッチを行い、三モーダル補間を用いて、音声表現が離散的に、または連続的に変化するかどうかを調べる。
粗大な因果トレースと因果スクラブを用いて局所的な因果構造を見つけることにより、相互移動に十分な内部部分空間を見つけることができる。
これらの効果が層内でどれだけ微細に分散されているかを決定するため、ニューロンレベルの活性化パッチングを行う。
孤立した単位ではなく、小さなが分布しないサブセットが、クロスモード転送に影響を及ぼすことが判明した。
その結果, 音声モードは共用連続因果多様体上に存在し, クロスモード転送は拡散活性ではなく, コンパクトで層特異的な部分空間によって媒介されることがわかった。
そこで本研究では,音声モダリティ情報がどのように組織化され,脳と音声の復号化モデルで使用されるのかを因果的に説明し,音声モード間の階層的・方向依存的な表現構造を明らかにした。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals [5.283718601431859]
エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-19T06:00:36Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。