論文の概要: An Isotropy Analysis in the Multilingual BERT Embedding Space
- arxiv url: http://arxiv.org/abs/2110.04504v1
- Date: Sat, 9 Oct 2021 08:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:10:24.146137
- Title: An Isotropy Analysis in the Multilingual BERT Embedding Space
- Title(参考訳): 多言語BERT埋め込み空間における等方性解析
- Authors: Sara Rajaee and Mohammad Taher Pilehvar
- Abstract要約: BERTの多言語文脈表現(CWR)における表現劣化問題について検討する。
その結果,多言語埋め込み空間の等方性の向上は,表現力や性能を著しく向上させることが示唆された。
分析の結果, 生成方向は言語によって異なるが, 類似した言語知識を符号化し, 言語間の共通言語空間を示唆している。
- 参考スコア(独自算出の注目度): 18.490856440975996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several studies have explored various advantages of multilingual pre-trained
models (e.g., multilingual BERT) in capturing shared linguistic knowledge.
However, their limitations have not been paid enough attention. In this paper,
we investigate the representation degeneration problem in multilingual
contextual word representations (CWRs) of BERT and show that the embedding
spaces of the selected languages suffer from anisotropy problem. Our
experimental results demonstrate that, similarly to their monolingual
counterparts, increasing the isotropy of multilingual embedding space can
significantly improve its representation power and performance. Our analysis
indicates that although the degenerated directions vary in different languages,
they encode similar linguistic knowledge, suggesting a shared linguistic space
among languages.
- Abstract(参考訳): いくつかの研究は、共通言語知識の取得における多言語事前学習モデル(例えば、多言語BERT)の様々な利点を探求してきた。
しかし、その限界には十分な注意が払われていない。
本稿では,BERTの多言語文脈表現(CWR)における表現退化問題について検討し,選択した言語の埋め込み空間が異方性問題に悩まされていることを示す。
実験の結果,多言語組込み空間の等方性が増大すると,その表現能力と性能が著しく向上することが示された。
分析の結果, 生成方向は言語によって異なるが, 類似した言語知識を符号化し, 言語間の共通言語空間を示唆している。
関連論文リスト
- Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - On the Language-specificity of Multilingual BERT and the Impact of
Fine-tuning [7.493779672689531]
multilingual BERT (mBERT) が獲得した知識は、言語固有のものと言語ニュートラルな2つのコンポーネントを持っている。
本稿では,2つのタスクの微調整の文脈において,それらの関係を解析する。
論文 参考訳(メタデータ) (2021-09-14T19:28:31Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Finding Universal Grammatical Relations in Multilingual BERT [47.74015366712623]
mBERT表現のサブスペースは、英語以外の言語で構文木の距離を回復することを示す。
我々は,mBERTが構文依存ラベルの表現を学習する証拠を提供する教師なし解析手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T20:46:02Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。