論文の概要: Revisiting Modality Invariance in a Multilingual Speech-Text Model via Neuron-Level Analysis
- arxiv url: http://arxiv.org/abs/2601.17387v1
- Date: Sat, 24 Jan 2026 09:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.705932
- Title: Revisiting Modality Invariance in a Multilingual Speech-Text Model via Neuron-Level Analysis
- Title(参考訳): ニューロンレベル解析による多言語音声テキストモデルにおけるモダリティ不変性の再検討
- Authors: Toshiki Nakai, Varsha Suresh, Vera Demberg,
- Abstract要約: 言語とモダリティの情報を符号化した場所、選択的ニューロンがデコードにどのように影響するか、そしてこの影響がネットワーク全体にどの程度集中しているかについて検討する。
我々は,平均精度ランキングを用いて言語選択性ニューロンとモダリティ選択性ニューロンを同定し,その機能的役割を推定時に中心的置換介入を用いて検討し,言語とモダリティ間のアクティベーション・マグニチュードの不平等を解析した。
- 参考スコア(独自算出の注目度): 15.638379666159127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual speech-text foundation models aim to process language uniformly across both modality and language, yet it remains unclear whether they internally represent the same language consistently when it is spoken versus written. We investigate this question in SeamlessM4T v2 through three complementary analyses that probe where language and modality information is encoded, how selective neurons causally influence decoding, and how concentrated this influence is across the network. We identify language- and modality-selective neurons using average-precision ranking, investigate their functional role via median-replacement interventions at inference time, and analyze activation-magnitude inequality across languages and modalities. Across experiments, we find evidence of incomplete modality invariance. Although encoder representations become increasingly language-agnostic, this compression makes it more difficult for the shared decoder to recover the language of origin when constructing modality-agnostic representations, particularly when adapting from speech to text. We further observe sharply localized modality-selective structure in cross-attention key and value projections. Finally, speech-conditioned decoding and non-dominant scripts exhibit higher activation concentration, indicating heavier reliance on a small subset of neurons, which may underlie increased brittleness across modalities and languages.
- Abstract(参考訳): 多言語音声テキスト基盤モデルは、モダリティと言語の両方にわたって言語を均一に処理することを目的としている。
本研究は、SeamlessM4T v2において、言語情報とモダリティ情報がどこに符号化されているか、選択的ニューロンがどのようにデコードに因果的に影響するか、この影響がネットワーク全体にどの程度集中しているかを調査する3つの相補的分析を通して、この問題を考察する。
我々は,平均精度ランキングを用いて言語選択性ニューロンとモダリティ選択性ニューロンを同定し,その機能的役割を推定時に中心的置換介入を用いて検討し,言語とモダリティ間のアクティベーション・マグニチュードの不平等を解析した。
実験を通して、不完全なモジュラリティ不変性の証拠が見つかる。
エンコーダ表現は言語に依存しないものになりつつあるが、この圧縮により、特に音声からテキストへの適応において、モダリティに依存しない表現を構築する際に、共有デコーダが元の言語を復元することがより困難になる。
さらに、クロスアテンションキーと値投影における急激な局所化モダリティ選択構造を観察する。
最後に、音声条件のデコードと非支配的なスクリプトは、より高い活性化濃度を示し、少数のニューロンに大きく依存していることを示し、モダリティや言語間の脆さを弱める可能性がある。
関連論文リスト
- Coherence in the brain unfolds across separable temporal regimes [1.3874648807526748]
言語におけるコヒーレンスには、脳が競合する2つの時間的要求を満たす必要がある。
我々は、コヒーレンスを、文脈統合の遅い解離可能なニューラルレシエーションと、イベント駆動の迅速な再構成によって実現していることを示す。
論文 参考訳(メタデータ) (2025-12-23T16:16:42Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。
文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。
被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文 参考訳(メタデータ) (2024-03-17T12:12:33Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。