論文の概要: Study of scaling laws in language families
- arxiv url: http://arxiv.org/abs/2504.01681v1
- Date: Wed, 02 Apr 2025 12:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:35.555068
- Title: Study of scaling laws in language families
- Title(参考訳): 言語族におけるスケーリング法則の研究
- Authors: Maelyson R. F. Santos, Marcelo A. F. Gomes,
- Abstract要約: 本稿では,6万以上の言語からのデータを用いて,言語ファミリー内の法則のスケーリングについて検討する。
Zipfに似た分類グラフで観察される創発パターンを分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This article investigates scaling laws within language families using data from over six thousand languages and analyzing emergent patterns observed in Zipf-like classification graphs. Both macroscopic (based on number of languages by family) and microscopic (based on numbers of speakers by language on a family) aspects of these classifications are examined. Particularly noteworthy is the discovery of a distinct division among the fourteen largest contemporary language families, excluding Afro-Asiatic and Nilo-Saharan languages. These families are found to be distributed across three language family quadruplets, each characterized by significantly different exponents in the Zipf graphs. This finding sheds light on the underlying structure and organization of major language families, revealing intriguing insights into the nature of linguistic diversity and distribution.
- Abstract(参考訳): 本稿では,6万以上の言語から得られたデータを用いて言語ファミリー内の法則のスケーリングを行い,Zipfに似た分類グラフで観察された創発パターンを解析する。
これらの分類のマクロ的側面(家族による言語数に基づく)と微視的側面(家族による言語数に基づく)の両方について検討した。
特に注目すべきは、Afro-Asiatic言語とNilo-Saharan言語を除いて、14大現代語族の別個の区分が発見されたことである。
これらの族は3つの言語ファミリーの四重項に分散しており、それぞれがZipfグラフの全く異なる指数によって特徴づけられる。
この発見は、主要な言語家族の構造と組織に光を当て、言語多様性と分布の性質に関する興味深い洞察を明らかにした。
関連論文リスト
- Exploring language relations through syntactic distances and geographic proximity [0.4369550829556578]
ユニバーサル依存データセットから抽出した音声の一連の部分(POS)を用いて言語間距離を探索する。
特定の形態的類型によって説明される例外を除いて、よく知られた言語族やグループに対応する定型クラスタが見つかる。
論文 参考訳(メタデータ) (2024-03-27T10:36:17Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Clustering Pseudo Language Family in Multilingual Translation Models
with Fisher Information Matrix [22.891944602891428]
祖先のみに基づくクラスタリング言語は、最適な結果をもたらすことができる。
本稿では,漁船情報行列(FIM)をクラスタリング言語ファミリーに活用する革新的な手法を提案する。
我々は、これらの擬似言語ファミリーの創始と応用について、深く議論する。
論文 参考訳(メタデータ) (2023-12-05T15:03:27Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Colexifications for Bootstrapping Cross-lingual Datasets: The Case of
Phonology, Concreteness, and Affectiveness [6.790979602996742]
コレキシフィケーション(英: Colexification)とは、複数の意味を伝えるために単一の語彙形式を用いる言語現象である。
世界中の21の言語ファミリーで142の言語を対象とするデータセットを作成したキュレーション手順を紹介した。
データセットには、音素と音韻の特徴でマッピングされた、具体性と感情の格付けが含まれている。
論文 参考訳(メタデータ) (2023-06-05T07:32:21Z) - The Geometry of Multilingual Language Models: An Equality Lens [2.6746119935689214]
ユークリッド空間における3つの多言語言語モデルの幾何学的解析を行う。
幾何学的分離性指数を用いて、言語は言語族によって近い傾向にあるが、それらは他族の言語とほぼ分離可能である。
論文 参考訳(メタデータ) (2023-05-13T05:19:15Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Automatically Identifying Language Family from Acoustic Examples in Low
Resource Scenarios [48.57072884674938]
ディープラーニングを用いて言語類似性を解析する手法を提案する。
すなわち、Willernessデータセットのモデルをトレーニングし、その潜在空間が古典的な言語家族の発見とどのように比較されるかを調べる。
論文 参考訳(メタデータ) (2020-12-01T22:44:42Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。