論文の概要: Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures
- arxiv url: http://arxiv.org/abs/2005.00100v2
- Date: Mon, 4 May 2020 20:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:12:43.160264
- Title: Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures
- Title(参考訳): 文からの言語的類型的特徴:言語構造の世界アトラスのスパース特徴を推定する
- Authors: Alexander Gutkin, Tatiana Merkulova and Martin Jansche
- Abstract要約: 我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
- 参考スコア(独自算出の注目度): 73.06435180872293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of linguistic typological resources in natural language processing
has been steadily gaining more popularity. It has been observed that the use of
typological information, often combined with distributed language
representations, leads to significantly more powerful models. While linguistic
typology representations from various resources have mostly been used for
conditioning the models, there has been relatively little attention on
predicting features from these resources from the input data. In this paper we
investigate whether the various linguistic features from World Atlas of
Language Structures (WALS) can be reliably inferred from multi-lingual text.
Such a predictor can be used to infer structural features for a language never
observed in training data. We frame this task as a multi-label classification
involving predicting the set of non-mutually exclusive and extremely sparse
multi-valued labels (WALS features). We construct a recurrent neural network
predictor based on byte embeddings and convolutional layers and test its
performance on 556 languages, providing analysis for various linguistic types,
macro-areas, language families and individual features. We show that some
features from various linguistic types can be predicted reliably.
- Abstract(参考訳): 自然言語処理における言語型的資源の利用は、徐々に人気が高まっている。
型的情報の利用は、しばしば分散言語表現と組み合わせることで、より強力なモデルを生み出すことが示されている。
各種資源の言語型学表現は, 主にモデルの条件付けに用いられているが, 入力データからこれらの資源の特徴を予測することは比較的少ない。
本稿では,多言語テキストからWALS(World Atlas of Language Structures)の様々な言語的特徴を確実に推測できるかどうかを検討する。
このような予測器は、訓練データで観測されることのない言語の構造的特徴を推測するために使用できる。
我々はこのタスクを,非可換排他的かつ極めてスパースな多値ラベル(wals特徴)の集合の予測を含むマルチラベル分類として構成する。
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築し、その性能を556言語で検証し、様々な言語タイプ、マクロエリア、言語家族および個々の特徴について分析する。
様々な言語型の特徴が確実に予測できることを示す。
関連論文リスト
- Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - SIGTYP 2020 Shared Task: Prediction of Typological Features [78.95376120154083]
タイポロジーKBが広く採用されるのを妨げる大きな欠点は、人口が少ないことである。
類型的特徴は相互に相関することが多いため、それらを予測し、自動的に類型的KBを投入することができる。
全体として、このタスクは5つのチームから8つの応募を惹きつけた。
論文 参考訳(メタデータ) (2020-10-16T08:47:24Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。