論文の概要: Revisiting Modality Invariance in a Multilingual Speech-Text Model via Neuron-Level Analysis
- arxiv url: http://arxiv.org/abs/2601.17387v1
- Date: Sat, 24 Jan 2026 09:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.705932
- Title: Revisiting Modality Invariance in a Multilingual Speech-Text Model via Neuron-Level Analysis
- Title(参考訳): ニューロンレベル解析による多言語音声テキストモデルにおけるモダリティ不変性の再検討
- Authors: Toshiki Nakai, Varsha Suresh, Vera Demberg,
- Abstract要約: 言語とモダリティの情報を符号化した場所、選択的ニューロンがデコードにどのように影響するか、そしてこの影響がネットワーク全体にどの程度集中しているかについて検討する。
我々は,平均精度ランキングを用いて言語選択性ニューロンとモダリティ選択性ニューロンを同定し,その機能的役割を推定時に中心的置換介入を用いて検討し,言語とモダリティ間のアクティベーション・マグニチュードの不平等を解析した。
- 参考スコア(独自算出の注目度): 15.638379666159127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual speech-text foundation models aim to process language uniformly across both modality and language, yet it remains unclear whether they internally represent the same language consistently when it is spoken versus written. We investigate this question in SeamlessM4T v2 through three complementary analyses that probe where language and modality information is encoded, how selective neurons causally influence decoding, and how concentrated this influence is across the network. We identify language- and modality-selective neurons using average-precision ranking, investigate their functional role via median-replacement interventions at inference time, and analyze activation-magnitude inequality across languages and modalities. Across experiments, we find evidence of incomplete modality invariance. Although encoder representations become increasingly language-agnostic, this compression makes it more difficult for the shared decoder to recover the language of origin when constructing modality-agnostic representations, particularly when adapting from speech to text. We further observe sharply localized modality-selective structure in cross-attention key and value projections. Finally, speech-conditioned decoding and non-dominant scripts exhibit higher activation concentration, indicating heavier reliance on a small subset of neurons, which may underlie increased brittleness across modalities and languages.
- Abstract(参考訳): 多言語音声テキスト基盤モデルは、モダリティと言語の両方にわたって言語を均一に処理することを目的としている。
本研究は、SeamlessM4T v2において、言語情報とモダリティ情報がどこに符号化されているか、選択的ニューロンがどのようにデコードに因果的に影響するか、この影響がネットワーク全体にどの程度集中しているかを調査する3つの相補的分析を通して、この問題を考察する。
我々は,平均精度ランキングを用いて言語選択性ニューロンとモダリティ選択性ニューロンを同定し,その機能的役割を推定時に中心的置換介入を用いて検討し,言語とモダリティ間のアクティベーション・マグニチュードの不平等を解析した。
実験を通して、不完全なモジュラリティ不変性の証拠が見つかる。
エンコーダ表現は言語に依存しないものになりつつあるが、この圧縮により、特に音声からテキストへの適応において、モダリティに依存しない表現を構築する際に、共有デコーダが元の言語を復元することがより困難になる。
さらに、クロスアテンションキーと値投影における急激な局所化モダリティ選択構造を観察する。
最後に、音声条件のデコードと非支配的なスクリプトは、より高い活性化濃度を示し、少数のニューロンに大きく依存していることを示し、モダリティや言語間の脆さを弱める可能性がある。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Graph Modelling Analysis of Speech-Gesture Interaction for Aphasia Severity Estimation [0.0]
失語症(英: aphasia)は、言語に責任がある脳の部位に損傷を負うことによって引き起こされる言語障害である。
最近の音声分析の進歩は、自発音声からの失語度の自動推定に焦点を当てている。
本研究では,失語症の重症度を推定するためのグラフニューラルネットワークに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T14:11:36Z) - Coherence in the brain unfolds across separable temporal regimes [1.3874648807526748]
言語におけるコヒーレンスには、脳が競合する2つの時間的要求を満たす必要がある。
我々は、コヒーレンスを、文脈統合の遅い解離可能なニューラルレシエーションと、イベント駆動の迅速な再構成によって実現していることを示す。
論文 参考訳(メタデータ) (2025-12-23T16:16:42Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。
文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。
被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文 参考訳(メタデータ) (2024-03-17T12:12:33Z) - Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks [0.0]
我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
論文 参考訳(メタデータ) (2024-01-22T09:49:44Z) - BrainLLM: Generative Language Decoding from Brain Recordings [77.66707255697706]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。