論文の概要: Language Embeddings Sometimes Contain Typological Generalizations
- arxiv url: http://arxiv.org/abs/2301.08115v1
- Date: Thu, 19 Jan 2023 15:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:48:38.969631
- Title: Language Embeddings Sometimes Contain Typological Generalizations
- Title(参考訳): 言語埋め込みは時としてタイポロジーの一般化を含む
- Authors: Robert \"Ostling, Murathan Kurfal{\i}
- Abstract要約: 我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To what extent can neural network models learn generalizations about language
structure, and how do we find out what they have learned? We explore these
questions by training neural models for a range of natural language processing
tasks on a massively multilingual dataset of Bible translations in 1295
languages. The learned language representations are then compared to existing
typological databases as well as to a novel set of quantitative syntactic and
morphological features obtained through annotation projection. We conclude that
some generalizations are surprisingly close to traditional features from
linguistic typology, but that most of our models, as well as those of previous
work, do not appear to have made linguistically meaningful generalizations.
Careful attention to details in the evaluation turns out to be essential to
avoid false positives. Furthermore, to encourage continued work in this field,
we release several resources covering most or all of the languages in our data:
(i) multiple sets of language representations, (ii) multilingual word
embeddings, (iii) projected and predicted syntactic and morphological features,
(iv) software to provide linguistically sound evaluations of language
representations.
- Abstract(参考訳): ニューラルネットワークモデルは、言語構造に関する一般化をどの程度学べるのか、彼らが何を学んだのかをどうやって知るのか?
本稿では,1295 言語における聖書翻訳の多言語データセットを用いて,自然言語処理タスクのニューラルネットワークを訓練することにより,これらの疑問を探る。
学習された言語表現は、既存のタイポロジーデータベースや、注釈投影によって得られた新しい定量的構文と形態的特徴のセットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、我々のモデルの多くは、以前の研究と同様、言語的に意味のある一般化をしていない。
評価における詳細への注意は偽陽性を避けるために不可欠であることが判明した。
さらに、この分野の継続作業を奨励するために、データ内の言語の大部分またはすべてをカバーするいくつかのリソースをリリースします。
(i)複数の言語表現の集合
(ii)多言語単語の埋め込み
三) 構文的・形態学的特徴の予測及び予測
(iv)言語表現の言語的に健全な評価を提供するソフトウェア
関連論文リスト
- Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。