論文の概要: What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties
- arxiv url: http://arxiv.org/abs/2009.12862v1
- Date: Sun, 27 Sep 2020 15:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:34:28.903649
- Title: What does it mean to be language-agnostic? Probing multilingual sentence
encoders for typological properties
- Title(参考訳): 言語に依存しないということは何ですか?
タイポロジー特性のための多言語文エンコーダの探索
- Authors: Rochelle Choenni, Ekaterina Shutova
- Abstract要約: 最先端の多言語エンコーダから文表現を探索する手法を提案する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
- 参考スコア(独自算出の注目度): 17.404220737977738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual sentence encoders have seen much success in cross-lingual model
transfer for downstream NLP tasks. Yet, we know relatively little about the
properties of individual languages or the general patterns of linguistic
variation that they encode. We propose methods for probing sentence
representations from state-of-the-art multilingual encoders (LASER, M-BERT, XLM
and XLM-R) with respect to a range of typological properties pertaining to
lexical, morphological and syntactic structure. In addition, we investigate how
this information is distributed across all layers of the models. Our results
show interesting differences in encoding linguistic variation associated with
different pretraining strategies.
- Abstract(参考訳): 多言語文エンコーダは、下流のNLPタスクに対する言語間モデル転送において大きな成功を収めている。
しかし、個々の言語の性質や、それらがエンコードする言語変化の一般的なパターンについてはあまりわかっていない。
本稿では, 語彙的, 形態的, 統語的構造に関して, 最先端多言語エンコーダ(LASER, M-BERT, XLM, XLM-R)から文表現を求める手法を提案する。
さらに,この情報をモデルの全層に分散させる方法について検討する。
本研究は,異なる事前学習戦略に関連する言語変化の符号化における興味深い違いを示す。
関連論文リスト
- Tokenization and Morphology in Multilingual Language Models: A Comparative Analysis of mT5 and ByT5 [4.779196219827507]
トークン化の影響を、mT5とByT5という2つの多言語言語モデルと対比して捉えた。
4つのタスクと17の言語でこれらのモデルに符号化された形態学的知識を解析した結果、モデルが他の言語よりも優れた形態学系を学習していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T14:14:19Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Cross-neutralising: Probing for joint encoding of linguistic information
in multilingual models [17.404220737977738]
言語間の関係を2つの最先端多言語モデルにエンコードする方法について検討する。
その結果,言語特性は類型的に類似した言語間で共同でコード化されていることが示唆された。
論文 参考訳(メタデータ) (2020-10-24T07:55:32Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。