論文の概要: Subword-Based Comparative Linguistics across 242 Languages Using Wikipedia Glottosets
- arxiv url: http://arxiv.org/abs/2601.18791v1
- Date: Mon, 26 Jan 2026 18:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.025737
- Title: Subword-Based Comparative Linguistics across 242 Languages Using Wikipedia Glottosets
- Title(参考訳): ウィキペディアグロットセットを用いた242言語における単語ベース比較言語学
- Authors: Iaroslav Chelombitko, Mika Hämäläinen, Aleksey Komissarov,
- Abstract要約: サブワードに基づく手法を用いて,242のラテン文字言語とキリル文字言語の大規模比較研究を行った。
提案手法では,ウィキペディアのランクに基づく単語ベクトルを用いて語彙,語彙の発散,言語的類似度を大規模に解析する。
- 参考スコア(独自算出の注目度): 0.1682277069379282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale comparative study of 242 Latin and Cyrillic-script languages using subword-based methodologies. By constructing 'glottosets' from Wikipedia lexicons, we introduce a framework for simultaneous cross-linguistic comparison via Byte-Pair Encoding (BPE). Our approach utilizes rank-based subword vectors to analyze vocabulary overlap, lexical divergence, and language similarity at scale. Evaluations demonstrate that BPE segmentation aligns with morpheme boundaries 95% better than random baseline across 15 languages (F1 = 0.34 vs 0.15). BPE vocabulary similarity correlates significantly with genetic language relatedness (Mantel r = 0.329, p < 0.001), with Romance languages forming the tightest cluster (mean distance 0.51) and cross-family pairs showing clear separation (0.82). Analysis of 26,939 cross-linguistic homographs reveals that 48.7% receive different segmentations across related languages, with variation correlating to phylogenetic distance. Our results provide quantitative macro-linguistic insights into lexical patterns across typologically diverse languages within a unified analytical framework.
- Abstract(参考訳): サブワードに基づく手法を用いて,242のラテン文字言語とキリル文字言語の大規模比較研究を行った。
ウィキペディアの辞書から'glottosets'を構築することにより,Byte-Pair Encoding (BPE)による言語間比較を同時に行うフレームワークを導入する。
ボキャブラリ重なり,語彙のばらつき,言語的類似性などを分析するために,ランクベースの単語ベクトルを用いた手法を提案する。
評価の結果、BPEセグメンテーションは15言語(F1 = 0.34 vs 0.15)のランダムベースラインよりも95%良い形態素境界と一致していることが示された。
BPE vocabulary similarity は遺伝的言語関連性 (Mantel r = 0.329, p < 0.001) と大きく相関し、ロマンス語は最も密集したクラスタ(平均0.51)と明確な分離を示すクロスファミリーペア(0.82)を形成する。
26,939の言語間ホモグラフの分析により、48.7%が、系統的距離に関連する変異を伴う、関連する言語間で異なるセグメンテーションを受け取っていることが明らかになった。
本研究は,一貫した分析枠組みの中で,類型的に多様な言語にまたがる語彙パターンについて,定量的なマクロ言語学的知見を提供する。
関連論文リスト
- Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation [1.290382979353427]
コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
論文 参考訳(メタデータ) (2022-10-29T01:52:25Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。