論文の概要: Beyond cognacy
- arxiv url: http://arxiv.org/abs/2507.03005v1
- Date: Wed, 02 Jul 2025 06:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.522144
- Title: Beyond cognacy
- Title(参考訳): cognacy (複数形 cognacys)
- Authors: Gerhard Jäger,
- Abstract要約: 2つの完全に自動化された手法を比較し、語彙データから直接系統情報を抽出する。
以上の結果から,MSAに基づく推論は,より言語分類に整合し,タイプロジカルな変異を予測し,より明確な系統的シグナルを与えることがわかった。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational phylogenetics has become an established tool in historical linguistics, with many language families now analyzed using likelihood-based inference. However, standard approaches rely on expert-annotated cognate sets, which are sparse, labor-intensive to produce, and limited to individual language families. This paper explores alternatives by comparing the established method to two fully automated methods that extract phylogenetic signal directly from lexical data. One uses automatic cognate clustering with unigram/concept features; the other applies multiple sequence alignment (MSA) derived from a pair-hidden Markov model. Both are evaluated against expert classifications from Glottolog and typological data from Grambank. Also, the intrinsic strengths of the phylogenetic signal in the characters are compared. Results show that MSA-based inference yields trees more consistent with linguistic classifications, better predicts typological variation, and provides a clearer phylogenetic signal, suggesting it as a promising, scalable alternative to traditional cognate-based methods. This opens new avenues for global-scale language phylogenies beyond expert annotation bottlenecks.
- Abstract(参考訳): 計算系統学は歴史的言語学において確立された道具となり、現在では多くの言語家族が確率に基づく推論を用いて分析している。
しかし、標準的なアプローチは専門家による注釈付きコグネートセットに依存しており、それは疎く、生産に労働集約的であり、個々の言語族に限られている。
本稿では,本手法を,語彙データから直接系統情報を抽出する2つの完全に自動化された手法と比較することにより,代替手法について検討する。
1つはユニグラム/コンセプション機能を備えた自動コグネートクラスタリングを使い、もう1つはペア隠れマルコフモデルから派生した多重シーケンスアライメント(MSA)を適用している。
どちらもGlottologの専門的な分類とGrambankの類型的データに対して評価される。
また、文字中の系統信号の内在的強度を比較した。
以上の結果から,MSAに基づく推論は,言語分類との整合性を高め,類型的変異を予測し,より明確な系統的信号を提供し,従来のコグネート法に代わる有望でスケーラブルな代替手段として示唆している。
これにより、専門家のアノテーションボトルネックを越えて、グローバルな言語系統学の新たな道が開かれる。
関連論文リスト
- The Cognate Data Bottleneck in Language Phylogenetics [49.1574468325115]
より大きなデータセットを必要とする系統データ分析アプローチは、コグネートデータには適用できない。
これらの計算手法が歴史的言語学にどのように適用できるか、またどのように適用できるかは、まだ明らかな疑問である。
論文 参考訳(メタデータ) (2025-07-01T16:14:20Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Automated Cognate Detection as a Supervised Link Prediction Task with
Cognate Transformer [4.609569810881602]
関連する言語をまたいだコニャートの同定は、歴史的言語学における主要な問題の一つである。
本稿では,コグネート自動検出のための計算生物学にインスパイアされたトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-05T11:47:36Z) - Are Sounds Sound for Phylogenetic Reconstruction? [41.85920785319125]
本研究は, 音質とコグネートを用いた系統再建法の性能を初めて検証した。
以上の結果から,レキシカルコニャートから復元した系統は,平均四重項距離に対して約3分の1ほど位相的に近接していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T08:35:33Z) - Gene Set Summarization using Large Language Models [1.312659265502151]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文 参考訳(メタデータ) (2023-05-21T02:06:33Z) - Can the Language of the Collation be Translated into the Language of the
Stemma? Using Machine Translation for Witness Localization [0.0]
計算方法は、系統学と幹細胞学の姉妹分野の間で部分的に共有されている。
深層学習(DL)は系統学でわずかに成功した。
幹細胞学では、現在までにDLアプローチは全く知られていない。
論文 参考訳(メタデータ) (2022-06-11T20:10:21Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Exploiting Language Model for Efficient Linguistic Steganalysis: An
Empirical Study [23.311007481830647]
言語ステガナリシスを効果的に行うための2つの方法を提案する。
1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。
論文 参考訳(メタデータ) (2021-07-26T12:37:18Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。