論文の概要: Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster
- arxiv url: http://arxiv.org/abs/2603.07238v1
- Date: Sat, 07 Mar 2026 14:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.111759
- Title: Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster
- Title(参考訳): 自己監督音声モデルのスケーリングによる深い言語的関係の解明:太平洋クラスタからの証拠
- Authors: Minu Kim, Hoirin Kim, David R. Mortensen,
- Abstract要約: 自己監督音声モデル(S3Ms)から導かれる言語表現の類似性は,近年の拡大や接触によって引き起こされる地理的近接性や表面の類型的類似性を主に反映することが観察されている。
本研究では,S3Mに基づく言語識別システムの言語範囲を126言語から4,017言語に拡大することが,このトポロジにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 23.057593480189652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Similarities between language representations derived from Self-Supervised Speech Models (S3Ms) have been observed to primarily reflect geographic proximity or surface typological similarities driven by recent expansion or contact, potentially missing deeper genealogical signals. We investigate how scaling linguistic coverage of an S3M-based language identification system from 126 to 4,017 languages influences this topology. Our results reveal a non-linear effect: while phylogenetic recovery remains stagnant up to the 1K scale, the 4K model displays a dramatic qualitative shift, resolving both clear lineages and complex, long-term linguistic contact. Notably, our analysis reveals the emergence of a robust macro-cluster in the Pacific (comprising Papuan, Oceanic, and Australian languages) and investigates its latent drivers. We find that the 4K model utilizes a more concentrated encoding that captures shared, robust acoustic signatures such as global energy dynamics. These findings suggest that massive S3Ms can internalize multiple layers of language history, providing a promising perspective for computational phylogenetics and the study of language contact.
- Abstract(参考訳): 自己監督音声モデル(S3Ms)から導かれる言語表現の類似性は、主に最近の拡張や接触によって引き起こされる地理的な近接性や表面的な類型的類似性を反映することが観察されている。
本研究では,S3Mに基づく言語識別システムの言語範囲を126言語から4,017言語に拡大することが,このトポロジにどのように影響するかを検討する。
系統的回復は1Kスケールまで停滞するが、4Kモデルは劇的な質的変化を示し、明確な系統と複雑な言語接触を解消する。
特に、太平洋におけるロバストなマクロクラスタ(パプア語、オセアニック語、オーストラリア語を含む)の出現を明らかにし、その潜在ドライバーを調査した。
4Kモデルは、大域エネルギー力学のような共有で堅牢な音響シグネチャをキャプチャする、より集中的な符号化を利用する。
これらの結果から, 大規模S3Mは言語史の複数の層を内在化することができ, 計算系統学や言語接触の研究に有望な視点をもたらすことが示唆された。
関連論文リスト
- Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG [21.253523606290685]
本研究では,12個のオープンソースオーディオLLMと2つのデータセットにわたる脳波信号の階層的表現アライメントについて検討した。
分析の結果,(1)モデルランキングが異なる類似度指標で大きく異なるランク関係の分割,(2)深度依存のアライメントピークと,250~500msの時間窓内RSAの顕著増加を特徴とする時間的アライメントパターンをN400ニューラルダイナミクスと一致させ,(3)提案したTNC基準を用いて,ネガティブな評価能力を見出した。
論文 参考訳(メタデータ) (2026-01-23T08:18:29Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文 参考訳(メタデータ) (2024-08-06T09:27:41Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating
Chinese and English Computational Language Models [44.74364661212373]
本稿では、中国語と英語のネイティブ参加者から収集した認知ベンチマークであるMulCogBenchを提案する。
主観的意味評価、視線追跡、機能的磁気共鳴画像(fMRI)、脳磁図(MEG)など、さまざまな認知データを含んでいる。
その結果、言語モデルは人間の認知データと大きな類似性を共有しており、類似性パターンはデータモダリティと刺激の複雑さによって変調されることがわかった。
論文 参考訳(メタデータ) (2024-03-02T07:49:57Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。