論文の概要: The Cognate Data Bottleneck in Language Phylogenetics
- arxiv url: http://arxiv.org/abs/2507.00911v1
- Date: Tue, 01 Jul 2025 16:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.726961
- Title: The Cognate Data Bottleneck in Language Phylogenetics
- Title(参考訳): 言語系統学におけるコグネート・データ・ボトルネック
- Authors: Luise Häuser, Alexandros Stamatakis,
- Abstract要約: より大きなデータセットを必要とする系統データ分析アプローチは、コグネートデータには適用できない。
これらの計算手法が歴史的言語学にどのように適用できるか、またどのように適用できるかは、まだ明らかな疑問である。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To fully exploit the potential of computational phylogenetic methods for cognate data one needs to leverage specific (complex) models an machine learning-based techniques. However, both approaches require datasets that are substantially larger than the manually collected cognate data currently available. To the best of our knowledge, there exists no feasible approach to automatically generate larger cognate datasets. We substantiate this claim by automatically extracting datasets from BabelNet, a large multilingual encyclopedic dictionary. We demonstrate that phylogenetic inferences on the respective character matrices yield trees that are largely inconsistent with the established gold standard ground truth trees. We also discuss why we consider it as being unlikely to be able to extract more suitable character matrices from other multilingual resources. Phylogenetic data analysis approaches that require larger datasets can therefore not be applied to cognate data. Thus, it remains an open question how, and if these computational approaches can be applied in historical linguistics.
- Abstract(参考訳): コグネートデータに対する計算系統学的手法の可能性を完全に活用するには、機械学習ベースの特定の(複雑な)モデルを活用する必要がある。
しかし、どちらのアプローチも、現在手作業で収集されているコグネートデータよりもはるかに大きなデータセットを必要とする。
我々の知る限りでは、より大きなコグネートデータセットを自動生成するための実現可能なアプローチは存在しない。
大規模な多言語百科事典BabelNetからデータセットを自動的に抽出することで,この主張を裏付ける。
本研究は, 各形質行列の系統的推測が, 確立された金標準地真理木とほぼ一致しない木を産出することを示した。
また、他の多言語資源からより適切な文字行列を抽出できないと考えられる理由についても論じる。
したがって、より大きなデータセットを必要とする系統データ分析アプローチは、コグネートデータには適用できない。
したがって、これらの計算手法が歴史的言語学にどのように適用できるのか、またどのようにして適用できるかは、未解決の疑問である。
関連論文リスト
- From Isolates to Families: Using Neural Networks for Automated Language Affiliation [9.182884165239996]
歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に複雑なワークフローを用いて行われる。
多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトを開発するための新たな道を開くのに役立つだろう。
本研究では,1000言語以上の言語から得られた語彙データと文法データを用いて,個々の言語を家族に分類するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:25:32Z) - Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language [7.59001382786429]
本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。
我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。
私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。
論文 参考訳(メタデータ) (2024-03-25T19:40:26Z) - Multilingual Gradient Word-Order Typology from Universal Dependencies [2.968112652976397]
WALSやGrambankなど、既存の類型的データベースは、主に分類形式に起因する不整合に悩まされている。
分類データではなく、連続価値データからなる新しいシードデータセットを導入することで、言語の多様性をよりよく反映できる。
論文 参考訳(メタデータ) (2024-02-02T15:54:19Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Iterative Rule Extension for Logic Analysis of Data: an MILP-based
heuristic to derive interpretable binary classification from large datasets [0.6526824510982799]
この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。
その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができることがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。