論文の概要: A Likelihood Ratio Test of Genetic Relationship among Languages
- arxiv url: http://arxiv.org/abs/2404.00284v1
- Date: Sat, 30 Mar 2024 08:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:30:18.851513
- Title: A Likelihood Ratio Test of Genetic Relationship among Languages
- Title(参考訳): 言語間の遺伝的関係の類似度テスト
- Authors: V. S. D. S. Mahesh Akavarapu, Arnab Bhattacharya,
- Abstract要約: そこで本研究では,単語リスト内の不変文字サイトの比率に基づいて,言語が関連しているかどうかを判定する確率比テストを提案する。
我々は,いくつかの言語族を評価し,提案したテストが偽陽性の問題を解くことを示す。
- 参考スコア(独自算出の注目度): 3.9018931027384056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexical resemblances among a group of languages indicate that the languages could be genetically related, i.e., they could have descended from a common ancestral language. However, such resemblances can arise by chance and, hence, need not always imply an underlying genetic relationship. Many tests of significance based on permutation of wordlists and word similarity measures appeared in the past to determine the statistical significance of such relationships. We demonstrate that although existing tests may work well for bilateral comparisons, i.e., on pairs of languages, they are either infeasible by design or are prone to yield false positives when applied to groups of languages or language families. To this end, inspired by molecular phylogenetics, we propose a likelihood ratio test to determine if given languages are related based on the proportion of invariant character sites in the aligned wordlists applied during tree inference. Further, we evaluate some language families and show that the proposed test solves the problem of false positives. Finally, we demonstrate that the test supports the existence of macro language families such as Nostratic and Macro-Mayan.
- Abstract(参考訳): ある言語群における語彙的類似性は、これらの言語が遺伝的に関連がある可能性があること、すなわち、共通の祖先言語から派生した可能性があることを示している。
しかし、そのような類似性は偶然に起こりうるため、必ずしも基礎となる遺伝的関係を暗示する必要はない。
単語リストの置換と単語類似度に基づく重要度テストが過去に数多く登場し、そのような関係の統計的意義を決定づけた。
既存のテストは、二言語比較、すなわち一対の言語ではうまく機能するが、それらは設計によって実現できないか、あるいは言語群や言語族に適用した場合に偽陽性を生じる傾向があることを実証する。
そこで本研究では, 分子系統学にヒントを得て, 木推論で適用された単語リスト内の不変文字の比率に基づいて, 与えられた言語が関係しているかどうかを判定する確率比テストを提案する。
さらに、いくつかの言語族を評価し、提案したテストが偽陽性の問題を解くことを示す。
最後に、このテストは、NostraticやMacro-Mayanのようなマクロ言語ファミリーの存在を支持することを示す。
関連論文リスト
- Correlation Does Not Imply Compensation: Complexity and Irregularity in the Lexicon [48.00488140516432]
形態的不規則性と音韻的複雑性との間に正の相関が認められた。
また,単語長と形態的不規則性の負の関係の弱い証拠も見出した。
論文 参考訳(メタデータ) (2024-06-07T18:09:21Z) - Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Clustering Pseudo Language Family in Multilingual Translation Models
with Fisher Information Matrix [22.891944602891428]
祖先のみに基づくクラスタリング言語は、最適な結果をもたらすことができる。
本稿では,漁船情報行列(FIM)をクラスタリング言語ファミリーに活用する革新的な手法を提案する。
我々は、これらの擬似言語ファミリーの創始と応用について、深く議論する。
論文 参考訳(メタデータ) (2023-12-05T15:03:27Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Probing Multilingual BERT for Genetic and Typological Signals [28.360662552057324]
我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
論文 参考訳(メタデータ) (2020-11-04T00:03:04Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。