論文の概要: Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization
- arxiv url: http://arxiv.org/abs/2010.10041v4
- Date: Mon, 1 Nov 2021 09:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:52:23.142631
- Title: Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization
- Title(参考訳): 言語間一般化改善のための多言語BERT言語句の探索
- Authors: Chi-Liang Liu and Tsung-Yuan Hsu and Yung-Sung Chuang and Chung-Yi Li
and Hung-yi Lee
- Abstract要約: 多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
- 参考スコア(独自算出の注目度): 56.87201892585477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token embeddings in multilingual BERT (m-BERT) contain both language and
semantic information. We find that the representation of a language can be
obtained by simply averaging the embeddings of the tokens of the language.
Given this language representation, we control the output languages of
multilingual BERT by manipulating the token embeddings, thus achieving
unsupervised token translation. We further propose a computationally cheap but
effective approach to improve the cross-lingual ability of m-BERT based on this
observation.
- Abstract(参考訳): 多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
我々は、言語のトークンの埋め込みを平均化することによって、言語の表現を得ることができることを見出した。
この言語表現を前提として、トークン埋め込みを操作することで多言語BERTの出力言語を制御し、教師なしトークン翻訳を実現する。
さらに、この観測に基づいて、m-BERTの言語間能力を改善するために、計算的に安価で効果的なアプローチを提案する。
関連論文リスト
- L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence
representations using multilingual BERT [0.7874708385247353]
SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングする。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
多言語BERTモデルは本質的に言語間学習者であり、この単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
論文 参考訳(メタデータ) (2023-04-22T15:45:40Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - To What Degree Can Language Borders Be Blurred In BERT-based
Multilingual Spoken Language Understanding? [7.245261469258502]
BERTをベースとした多言語言語理解(SLU)モデルは, 遠隔言語群でもかなりうまく機能するが, 理想的な多言語言語性能にはまだギャップがあることを示す。
本稿では,多言語SLUのための言語共有および言語固有表現を学習するための,BERTに基づく新しい逆モデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-10T09:59:24Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Are All Languages Created Equal in Multilingual BERT? [22.954688396858085]
104言語で訓練されたMultilingual BERT (mBERT)は、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。
我々は、mBERTが低リソース言語における表現の質に焦点をあて、より広い言語群でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-18T21:15:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。