論文の概要: BabelBERT: Massively Multilingual Transformers Meet a Massively
Multilingual Lexical Resource
- arxiv url: http://arxiv.org/abs/2208.01018v1
- Date: Mon, 1 Aug 2022 17:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:35:41.473214
- Title: BabelBERT: Massively Multilingual Transformers Meet a Massively
Multilingual Lexical Resource
- Title(参考訳): BabelBERT:多言語変換器は多言語レキシカルなリソースと出会う
- Authors: Tommaso Green and Simone Paolo Ponzetto and Goran Glava\v{s}
- Abstract要約: 2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が大幅に向上することを示す。
語彙制約のない言語への一般化が可能な言語として,多言語語彙の特殊化が期待できることを示す。
- 参考スコア(独自算出の注目度): 18.766379322798837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While pretrained language models (PLMs) primarily serve as general purpose
text encoders that can be fine-tuned for a wide variety of downstream tasks,
recent work has shown that they can also be rewired to produce high-quality
word representations (i.e., static word embeddings) and yield good performance
in type-level lexical tasks. While existing work primarily focused on lexical
specialization of PLMs in monolingual and bilingual settings, in this work we
expose massively multilingual transformers (MMTs, e.g., mBERT or XLM-R) to
multilingual lexical knowledge at scale, leveraging BabelNet as the readily
available rich source of multilingual and cross-lingual type-level lexical
knowledge. Concretely, we leverage BabelNet's multilingual synsets to create
synonym pairs across $50$ languages and then subject the MMTs (mBERT and XLM-R)
to a lexical specialization procedure guided by a contrastive objective. We
show that such massively multilingual lexical specialization brings massive
gains in two standard cross-lingual lexical tasks, bilingual lexicon induction
and cross-lingual word similarity, as well as in cross-lingual sentence
retrieval. Crucially, we observe gains for languages unseen in specialization,
indicating that the multilingual lexical specialization enables generalization
to languages with no lexical constraints. In a series of subsequent controlled
experiments, we demonstrate that the pretraining quality of word
representations in the MMT for languages involved in specialization has a much
larger effect on performance than the linguistic diversity of the set of
constraints. Encouragingly, this suggests that lexical tasks involving
low-resource languages benefit the most from lexical knowledge of resource-rich
languages, generally much more available.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、主に様々な下流タスクに微調整できる汎用テキストエンコーダとして機能するが、近年の研究では、高品質な単語表現(静的単語埋め込み)の生成や、型レベルの語彙タスクにおける優れたパフォーマンスが得られることが示されている。
既存の研究は主にモノリンガルおよびバイリンガル設定におけるPLMの語彙的特殊化に焦点を当てているが、この研究では、多言語の語彙的知識に多言語的変換器(MMT、mBERT、XLM-R)を公開し、BabelNetを多言語および多言語型レベルの語彙的知識の豊富な情報源として活用する。
具体的には、BabelNetの多言語構文を利用して50ドルの言語をまたいだ同義語ペアを作成し、MMT(mBERTとXLM-R)を対照的な目的によってガイドされた語彙的特殊化手順に従わせる。
このような多言語レキシカル特殊化は、バイリンガルレキシコン誘導(英語版)と言語間単語類似性(英語版)の2つの標準言語間レキシカルタスク、および言語間文検索において大きな利益をもたらすことを示す。
重要な点として,多言語語彙の特殊化は語彙制約のない言語への一般化を可能にすることを示す。
その後の一連の制御実験において,MMTにおける単語表現の事前学習品質は,制約セットの言語的多様性よりも,性能にはるかに大きな影響を及ぼすことを示した。
これは、低リソース言語を含む語彙的タスクがリソース豊富な言語の語彙的知識から最も恩恵を受けることを示唆している。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。