論文の概要: Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon
- arxiv url: http://arxiv.org/abs/2604.00023v1
- Date: Wed, 11 Mar 2026 05:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.201747
- Title: Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon
- Title(参考訳): 音韻フォッシル:スラウェシ基本語彙における非主ストリーム語彙の機械学習検出
- Authors: Mukhlis Amien, Go Frendi Gunawan,
- Abstract要約: 6つのスラウェシ語から1,357の形式を用いて、438の候補基質形式(26.5%)をコグネート減算とプロト・オーストロネシア横断検定によって同定する。
26の音韻学的特徴に基づいて訓練されたXGBoost分類器は、AUC=.763の非主流形式と区別される。
クラスタリングはコヒーレントな語族を産み出さず、オーストロネシア語以前の1つの言語層に証拠を与えない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Basic vocabulary in many Sulawesi Austronesian languages includes forms resisting reconstruction to any proto-form with phonological patterns inconsistent with inherited roots, but whether this non-conforming vocabulary represents pre-Austronesian substrate or independent innovation has not been tested computationally. We combine rule-based cognate subtraction with a machine learning classifier trained on phonological features. Using 1,357 forms from six Sulawesi languages in the Austronesian Basic Vocabulary Database, we identify 438 candidate substrate forms (26.5%) through cognate subtraction and Proto-Austronesian cross-checking. An XGBoost classifier trained on 26 phonological features distinguishes inherited from non-mainstream forms with AUC=0.763, revealing a phonological fingerprint: longer forms, more consonant clusters, higher glottal stop rates, and fewer Austronesian prefixes. Cross-method consensus (Cohen's kappa=0.61) identifies 266 high-confidence non-mainstream candidates. However, clustering yields no coherent word families (silhouette=0.114; cross-linguistic cognate test p=0.569), providing no evidence for a single pre-Austronesian language layer. Application to 16 additional languages confirms geographic patterning: Sulawesi languages show higher predicted non-mainstream rates (mean P_sub=0.606) than Western Indonesian languages (0.393). This study demonstrates that phonological machine learning can complement traditional comparative methods in detecting non-mainstream lexical layers, while cautioning against interpreting phonological non-conformity as evidence for a shared substrate language.
- Abstract(参考訳): 多くのスラウェシ・オーストロネシア語の基本的な語彙には、音韻パターンが継承された任意の原型への再構成に抵抗する形式が含まれているが、この非コンフォーメーションの語彙がオーストロネシア以前の基質を表すのか、それとも独立した革新が計算的にテストされていないのか。
規則に基づくコグネートサブトラクションと、音韻的特徴を訓練した機械学習分類器を組み合わせる。
Austronesian Basic Vocabulary Databaseの6つのスラウェシ語の1,357の形式を用いて、438の候補基質(26.5%)をコグネートサブトラクションとプロト・オーストロネシアのクロスチェックによって同定する。
26の音韻的特徴に基づいて訓練されたXGBoost分類器は、AUC=0.763の非主ストリーム形式と区別し、より長い形、より多くの子音クラスタ、高い声門停止率、より少ないオーストロネシアの接頭辞の音韻的指紋を明らかにする。
クロスメタルコンセンサス (Cohen's kappa=0.61) は、266の高信頼な非主流候補を識別する。
しかし、クラスタリングはコヒーレントな単語群(silhouette=0.114; 言語横断的なコグネートテスト p=0.569)を産出せず、オーストロネシア語以前の1つの言語層を示す証拠は得られない。
スラウェシ語は西インドネシア語(0.393)よりも予測される非主流率(平均P_sub=0.606)が高い。
本研究は,音韻論的機械学習が,非主ストリーム語彙層の検出における従来の比較手法を補完し,共有基盤言語の証拠として音韻論的非整合性を解釈することに対して注意を払っていることを示す。
関連論文リスト
- Most over-representation of phonological features in basic vocabulary disappears when controlling for spatial and phylogenetic effects [4.7379911264912185]
我々は,245言語を解析した基本語彙概念の音響記号に関する最近の研究の頑健さを検証した。
新しい結果は、これまで観察されたパターンのほとんどは堅牢ではなく、実際、多くのパターンが系譜とアリーナコントロールを追加すると完全に消えることを示している。
論文 参考訳(メタデータ) (2025-12-08T13:24:53Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Are Sounds Sound for Phylogenetic Reconstruction? [41.85920785319125]
本研究は, 音質とコグネートを用いた系統再建法の性能を初めて検証した。
以上の結果から,レキシカルコニャートから復元した系統は,平均四重項距離に対して約3分の1ほど位相的に近接していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T08:35:33Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A phonetic model of non-native spoken word processing [40.018538874161756]
音韻学にアクセスできない音韻学習の計算モデルを1つまたは2つの言語で学習する。
まず、このモデルが、音声レベルおよび単語レベルの識別タスクにおいて予測可能な振る舞いを示すことを示す。
次に、音声による単語処理タスクでモデルをテストし、非母語話者で観察される単語処理の効果を説明するために音韻学は必要ないことを示した。
論文 参考訳(メタデータ) (2021-01-27T11:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。