論文の概要: Multilingual BERT Post-Pretraining Alignment
- arxiv url: http://arxiv.org/abs/2010.12547v2
- Date: Sat, 10 Apr 2021 15:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:42:20.878349
- Title: Multilingual BERT Post-Pretraining Alignment
- Title(参考訳): 多言語BERTポストプレトレーニングアライメント
- Authors: Lin Pan, Chung-Wei Hang, Haode Qi, Abhishek Shah, Saloni Potdar, Mo Yu
- Abstract要約: 本稿では,複数言語の文脈埋め込みを事前学習のステップとして整列する簡単な手法を提案する。
並列データを用いて,最近提案された翻訳言語モデリングの目的を通じて,単語レベルでの埋め込みを整列する。
また、下流タスクで微調整された場合、文レベルのコードスイッチングを英語で行う。
- 参考スコア(独自算出の注目度): 26.62198329830013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple method to align multilingual contextual embeddings as a
post-pretraining step for improved zero-shot cross-lingual transferability of
the pretrained models. Using parallel data, our method aligns embeddings on the
word level through the recently proposed Translation Language Modeling
objective as well as on the sentence level via contrastive learning and random
input shuffling. We also perform sentence-level code-switching with English
when finetuning on downstream tasks. On XNLI, our best model (initialized from
mBERT) improves over mBERT by 4.7% in the zero-shot setting and achieves
comparable result to XLM for translate-train while using less than 18% of the
same parallel data and 31% less model parameters. On MLQA, our model
outperforms XLM-R_Base that has 57% more parameters than ours.
- Abstract(参考訳): 本稿では,事前学習モデルのゼロショットクロスリンガル伝達性向上のための前訓練ステップとして,多言語文脈埋め込みをアライン化するための簡易な手法を提案する。
並列データを用いて,最近提案する翻訳言語モデリングの目的と,コントラスト学習とランダム入力シャッフルによる文レベルでの埋め込みを調整した。
また,下流タスクを微調整する際には,英語による文レベルのコード切り換えも行う。
XNLIでは、最良モデル(mBERTから初期化)は、ゼロショット設定でmBERTよりも4.7%向上し、同一並列データの18%未満と31%少ないモデルパラメータを使用しながら、翻訳訓練用のXLMに匹敵する結果が得られる。
MLQAでは、我々のモデルはXLM-R_Baseよりも57%高いパラメータを持つ。
関連論文リスト
- sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting [29.63634707674839]
本稿では,多言語合成指導調律データセット sPhinX を作成するための新しいレシピを提案する。
sPhinXは、命令応答対を英語から50言語に選択的に翻訳することで生成される。
本研究では,2つの最先端モデルであるMistral-7BとPhi-Smallを微調整するためにsPhinxの有効性を検証した。
論文 参考訳(メタデータ) (2024-07-13T13:03:45Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Multi-Level Contrastive Learning for Cross-Lingual Alignment [35.33431650608965]
マルチリンガルBERT(mBERT)のような言語間事前学習モデルは、様々な言語間下流のNLPタスクにおいて大きな性能を発揮している。
本稿では,事前学習モデルの言語間能力の向上を図るために,マルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-26T07:14:20Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。