論文の概要: Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer?
- arxiv url: http://arxiv.org/abs/2212.10879v1
- Date: Wed, 21 Dec 2022 09:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:45:20.862524
- Title: Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer?
- Title(参考訳): 多言語BERTの言語間統語的相違:それはどのくらい良いのか、転送にどう影響するのか?
- Authors: Ningyu Xu, Tao Gui, Ruotian Ma, Qi Zhang, Jingting Ye, Menghan Zhang,
Xuanjing Huang
- Abstract要約: マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
- 参考スコア(独自算出の注目度): 50.48082721476612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual BERT (mBERT) has demonstrated considerable cross-lingual
syntactic ability, whereby it enables effective zero-shot cross-lingual
transfer of syntactic knowledge. The transfer is more successful between some
languages, but it is not well understood what leads to this variation and
whether it fairly reflects difference between languages. In this work, we
investigate the distributions of grammatical relations induced from mBERT in
the context of 24 typologically different languages. We demonstrate that the
distance between the distributions of different languages is highly consistent
with the syntactic difference in terms of linguistic formalisms. Such
difference learnt via self-supervision plays a crucial role in the zero-shot
transfer performance and can be predicted by variation in morphosyntactic
properties between languages. These results suggest that mBERT properly encodes
languages in a way consistent with linguistic diversity and provide insights
into the mechanism of cross-lingual transfer.
- Abstract(参考訳): マルチリンガルBERT (mBERT) は, 言語間シンタクティック能力に優れており, 効果的なゼロショット言語間シンタクティック知識の伝達を可能にする。
移行はいくつかの言語間でより成功しているが、この変化に何をもたらすのか、言語間の差異を十分に反映しているかはよく分かっていない。
本研究では,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討する。
異なる言語の分布間の距離は、言語形式学における構文的差異と非常に一致していることを示す。
このような違いはゼロショット転送性能において重要な役割を担い、言語間のモルフォシンタクティック特性の変化によって予測できる。
これらの結果は,mBERTが言語多様性に整合した方法で言語を適切にエンコードし,言語間移動のメカニズムに関する洞察を与えることを示唆している。
関連論文リスト
- Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations [15.194196775504613]
我々は、英語と対象言語の違いが、英語の事前訓練された表現空間と言語を整合させる能力にどのように影響するかを分析する。
文字や単語の順序などの特性はアライメント品質に限られた影響しか与えないが、翻訳エントロピーの尺度を用いて定義する2言語間の語彙マッチングの程度は、それに大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-08-14T14:59:20Z) - Disentangling the Roles of Target-Side Transfer and Regularization in
Multilingual Machine Translation [9.838281446902268]
我々は2次元の補助的対象側言語を変化させる大規模研究を行う。
言語的に類似したターゲット言語は、肯定的な知識を伝達する強い能力を示す。
類似のターゲット言語のサイズが大きくなると、前向きな変換が強化され、主要な言語ペアにメリットがもたらされる。
一方、遠方の補助的対象言語は、最小限の正の転送能力を持ちながら、予期せずメイン言語ペアの恩恵を受けることができる。
論文 参考訳(メタデータ) (2024-02-01T10:55:03Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Understanding Cross-Lingual Syntactic Transfer in Multilingual Recurrent
Neural Networks [3.9342247746757435]
現在、現代のニューラル言語モデルが複数の言語で同時にトレーニングできることが確立されている。
しかし、これらのモデル内の言語間でどのような知識が共有されているのか?
本稿では,言語間移動の異なる形態を識別し,その決定要因について検討する。
我々のLMを関連言語に公開することは、目標言語における文法的知識を常に増加させる訳ではなく、語彙-意味的移動の最適条件が構文的移動に最適でないことを我々は見出した。
論文 参考訳(メタデータ) (2020-03-31T09:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。