論文の概要: Sampling the Swadesh List to Identify Similar Languages with Tree Spaces
- arxiv url: http://arxiv.org/abs/2405.06549v1
- Date: Fri, 10 May 2024 15:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:28:24.852769
- Title: Sampling the Swadesh List to Identify Similar Languages with Tree Spaces
- Title(参考訳): 類似言語を木空間で識別するSwadesh Listのサンプリング
- Authors: Garett Ordway, Vic Patrangenaru,
- Abstract要約: 英語とラテンアルファベットの祖先は主要な関心事である。
インド・ヨーロッパ・ツリーは、多くの近代言語を原インド・ヨーロッパ語源に遡る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication plays a vital role in human interaction. Studying language is a worthwhile task and more recently has become quantitative in nature with developments of fields like quantitative comparative linguistics and lexicostatistics. With respect to the authors own native languages, the ancestry of the English language and the Latin alphabet are of the primary interest. The Indo-European Tree traces many modern languages back to the Proto-Indo-European root. Swadesh's cognates played a large role in developing that historical perspective where some of the primary branches are Germanic, Celtic, Italic, and Balto-Slavic. This paper will use data analysis on open books where the simplest singular space is the 3-spider - a union T3 of three rays with their endpoints glued at a point 0 - which can represent these tree spaces for language clustering. These trees are built using a single linkage method for clustering based on distances between samples from languages which use the Latin Script. Taking three languages at a time, the barycenter is determined. Some initial results have found both non-sticky and sticky sample means. If the mean exhibits non-sticky properties, then one language may come from a different ancestor than the other two. If the mean is considered sticky, then the languages may share a common ancestor or all languages may have different ancestry.
- Abstract(参考訳): コミュニケーションは人間の相互作用において重要な役割を果たす。
言語を学ぶことは価値のある課題であり、近年は量的比較言語学や語彙統計学のような分野の発展とともに、自然界において量的になった。
著者の母国語については、英語とラテンアルファベットの祖先が主な関心事である。
インド・ヨーロッパ・ツリーは、多くの近代言語を原インド・ヨーロッパ語源に遡る。
スワデシュのコニャーテは、ゲルマン語、ケルト語、イタリア語、バルト・スラヴ語が主要な分野である歴史的視点の発展に大きな役割を果たした。
本稿では,最も単純な特異空間が3-スパイダー (3-spider) であり,その終点が0点に接着された3光線の和集合 T3 であり,これらの木空間を言語クラスタリングのために表現できるオープンブック上でのデータ解析を用いる。
これらの木は、ラテンスクリプトを使用する言語からのサンプル間の距離に基づいて、クラスタリングのための単一のリンケージメソッドを使用して構築されている。
3つの言語を一度に受け取り、バリセンタが決定される。
初期の実験では、粘着性のないサンプルと粘着性のあるサンプルの両方が検出された。
平均が非粘着性を示す場合、ある言語は他の2言語とは異なる祖先から来ている可能性がある。
平均が粘着性があると考えられる場合、言語は共通の祖先を共有するか、または全ての言語が異なる祖先を持つ可能性がある。
関連論文リスト
- Measuring Cross-lingual Transfer in Bytes [9.011910726620538]
多様な言語からのモデルが、言語横断的な設定で対象言語と類似して動作することを示す。
また,この移行が言語汚染や言語近接と関係がないという証拠も発見された。
我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。
論文 参考訳(メタデータ) (2024-04-12T01:44:46Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - The Geometry of Multilingual Language Models: An Equality Lens [2.6746119935689214]
ユークリッド空間における3つの多言語言語モデルの幾何学的解析を行う。
幾何学的分離性指数を用いて、言語は言語族によって近い傾向にあるが、それらは他族の言語とほぼ分離可能である。
論文 参考訳(メタデータ) (2023-05-13T05:19:15Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Linguistic Classification using Instance-Based Learning [0.0]
コントラリア的アプローチを採用し、かなり制約のあるツリーベースモデルに疑問を呈する。
例えば、サンスクリットがインド・ヨーロッパ語にまたがる言語と独立して親和性は、ネットワークモデルを用いてよりよく説明できる。
インドにおける言語間の相互関係についても同じことが言えます。
論文 参考訳(メタデータ) (2020-12-02T04:12:10Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Markov Chain Monte-Carlo Phylogenetic Inference Construction in
Computational Historical Linguistics [0.0]
現代では、歴史言語学研究の伝統的な方法がいくつかの課題に直面しているため、世界中でますます多くの言語が研究されている。
本稿では,計算手法を用いて言語をクラスタリングし,マルコフ・チェイン・モンテカルロ(MCMC)法を用いて言語型関係木を構築する。
論文 参考訳(メタデータ) (2020-02-22T06:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。