Fugu-MT 論文翻訳(概要): From Isolates to Families: Using Neural Networks for Automated Language Affiliation

論文の概要: From Isolates to Families: Using Neural Networks for Automated Language Affiliation

arxiv url: http://arxiv.org/abs/2502.11688v1
Date: Mon, 17 Feb 2025 11:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.237328
Title: From Isolates to Families: Using Neural Networks for Automated Language Affiliation
Title（参考訳）: 分離から家族へ: 自動言語アフィリエイトにニューラルネットワークを使う
Authors: Frederic Blum, Steffen Herbold, Johann-Mattis List,
Abstract要約: 歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に複雑なワークフローを用いて行われる。多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトを開発するための新たな道を開くのに役立つだろう。本研究では,1000言語以上の言語から得られた語彙データと文法データを用いて,個々の言語を家族に分類するニューラルネットワークモデルを提案する。
参考スコア（独自算出の注目度）: 9.182884165239996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In historical linguistics, the affiliation of languages to a common language family is traditionally carried out using a complex workflow that relies on manually comparing individual languages. Large-scale standardized collections of multilingual wordlists and grammatical language structures might help to improve this and open new avenues for developing automated language affiliation workflows. Here, we present neural network models that use lexical and grammatical data from a worldwide sample of more than 1,000 languages with known affiliations to classify individual languages into families. In line with the traditional assumption of most linguists, our results show that models trained on lexical data alone outperform models solely based on grammatical data, whereas combining both types of data yields even better performance. In additional experiments, we show how our models can identify long-ranging relations between entire subgroups, how they can be employed to investigate potential relatives of linguistic isolates, and how they can help us to obtain first hints on the affiliation of so far unaffiliated languages. We conclude that models for automated language affiliation trained on lexical and grammatical data provide comparative linguists with a valuable tool for evaluating hypotheses about deep and unknown language relations.
Abstract（参考訳）: 歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に、個々の言語を手動で比較する複雑なワークフローを用いて行われる。多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトワークフローを開発するための新たな道を開くのに役立つだろう。本稿では,各言語を家族に分類するために,1000以上の言語からなる世界規模のサンプルから,語彙データと文法データを用いたニューラルネットワークモデルを提案する。従来のほとんどの言語学者の仮定に則って、我々の結果は、語彙データだけで訓練されたモデルは、文法データのみに基づくモデルよりも優れており、一方、両方のタイプのデータを組み合わせることで、より優れたパフォーマンスが得られることを示している。さらなる実験では、我々のモデルがサブグループ全体の長い関係を識別し、言語的孤立の潜在的な親類を調査するためにどのように使用できるか、そして、これまでの非関連言語の関連性に関する最初のヒントを得るのにどのように役立つかを示す。語彙および文法データに基づいて学習された自動言語アフィリエイトのモデルは、深い言語関係と未知の言語関係に関する仮説を評価する貴重なツールを比較言語学者に提供すると結論付けている。

関連論文リスト

Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文参考訳（メタデータ） (2024-10-02T12:36:08Z)
Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文参考訳（メタデータ） (2024-05-08T00:18:56Z)
Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文参考訳（メタデータ） (2023-01-19T15:09:59Z)
Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文参考訳（メタデータ） (2021-10-15T03:22:30Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。様々な言語型の特徴を確実に予測できることを示す。
論文参考訳（メタデータ） (2020-04-30T21:00:53Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文参考訳（メタデータ） (2019-12-30T22:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。