論文の概要: Exploring language relations through syntactic distances and geographic proximity
- arxiv url: http://arxiv.org/abs/2403.18430v2
- Date: Thu, 03 Oct 2024 08:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:28:21.493545
- Title: Exploring language relations through syntactic distances and geographic proximity
- Title(参考訳): 構文的距離と地理的近接による言語関係の探索
- Authors: Juan De Gregorio, Raúl Toral, David Sánchez,
- Abstract要約: ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
- 参考スコア(独自算出の注目度): 0.4369550829556578
- License:
- Abstract: Languages are grouped into families that share common linguistic traits. While this approach has been successful in understanding genetic relations between diverse languages, more analyses are needed to accurately quantify their relatedness, especially in less studied linguistic levels such as syntax. Here, we explore linguistic distances using series of parts of speech (POS) extracted from the Universal Dependencies dataset. Within an information-theoretic framework, we show that employing POS trigrams maximizes the possibility of capturing syntactic variations while being at the same time compatible with the amount of available data. Linguistic connections are then established by assessing pairwise distances based on the POS distributions. Intriguingly, our analysis reveals definite clusters that correspond to well known language families and groups, with exceptions explained by distinct morphological typologies. Furthermore, we obtain a significant correlation between language similarity and geographic distance, which underscores the influence of spatial proximity on language kinships.
- Abstract(参考訳): 言語は共通の言語特性を持つ家族に分類される。
このアプローチは多様な言語間の遺伝的関係を理解することに成功しているが、特に構文のようなあまり研究されていない言語レベルで、それらの関連性を正確に定量化するためには、より多くの分析が必要である。
本稿では,Universal Dependenciesデータセットから抽出した一連の音声(POS)を用いて言語間距離を探索する。
情報理論の枠組みでは、POSトリグラムを用いることで、利用可能なデータの量と互換性を同時に保ちながら、構文的変動を捉える可能性を最大化できることを示す。
次に、POS分布に基づいてペア距離を評価することにより言語接続を確立する。
興味深いことに,本分析では,言語族やグループに対応する定型クラスタが明らかであり,例外は形態的類型化によって説明されている。
さらに,言語類似性と地理的距離との間に有意な相関関係が得られ,言語親和性に対する空間的近接の影響を浮き彫りにする。
関連論文リスト
- Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Probing Multilingual BERT for Genetic and Typological Signals [28.360662552057324]
我々は多言語BERT(mBERT)の層を探索し,100言語にわたる系統的および地理的言語信号について検討した。
我々は,言語木を推定・評価するために,言語距離を用い,四重項木距離の点から基準系木に近いことが判明した。
論文 参考訳(メタデータ) (2020-11-04T00:03:04Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the coexistence of competing languages [0.0]
我々は,共存がもたらされる可能性のある方法を明らかにすることに焦点を当て,言語競争の問題を再考する。
この出現は対称性の破れに関連しており、2つの特定のシナリオを探索している。
いずれも、パラダイム的状況の調査は、言語共存につながる条件を定量的に理解することにつながる。
論文 参考訳(メタデータ) (2020-03-10T14:06:55Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。