論文の概要: Cross-lingual Transferring of Pre-trained Contextualized Language Models
- arxiv url: http://arxiv.org/abs/2107.12627v1
- Date: Tue, 27 Jul 2021 06:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:46:29.191948
- Title: Cross-lingual Transferring of Pre-trained Contextualized Language Models
- Title(参考訳): 事前学習した文脈言語モデルの言語間伝達
- Authors: Zuchao Li, Kevin Parnow, Hai Zhao, Zhuosheng Zhang, Rui Wang, Masao
Utiyama, Eiichiro Sumita
- Abstract要約: 本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
- 参考スコア(独自算出の注目度): 73.97131976850424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though the pre-trained contextualized language model (PrLM) has made a
significant impact on NLP, training PrLMs in languages other than English can
be impractical for two reasons: other languages often lack corpora sufficient
for training powerful PrLMs, and because of the commonalities among human
languages, computationally expensive PrLM training for different languages is
somewhat redundant. In this work, building upon the recent works connecting
cross-lingual model transferring and neural machine translation, we thus
propose a novel cross-lingual model transferring framework for PrLMs: TreLM. To
handle the symbol order and sequence length differences between languages, we
propose an intermediate ``TRILayer" structure that learns from these
differences and creates a better transfer in our primary translation direction,
as well as a new cross-lingual language modeling objective for transfer
training. Additionally, we showcase an embedding aligning that adversarially
adapts a PrLM's non-contextualized embedding space and the TRILayer structure
to learn a text transformation network across languages, which addresses the
vocabulary difference between languages. Experiments on both language
understanding and structure parsing tasks show the proposed framework
significantly outperforms language models trained from scratch with limited
data in both performance and efficiency. Moreover, despite an insignificant
performance loss compared to pre-training from scratch in resource-rich
scenarios, our cross-lingual model transferring framework is significantly more
economical.
- Abstract(参考訳): 事前学習された文脈化言語モデル(PrLM)はNLPに大きな影響を与えたが、英語以外の言語でのPrLMの訓練は2つの理由により非現実的である。
本研究では,言語間モデル転送とニューラルマシン翻訳を結合した最近の研究に基づいて,PrLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
言語間の記号順序とシーケンス長の差に対処するため,これらの違いから学習し,一次翻訳の方向をより良く伝達できる中間的な「TRILayer」構造と,翻訳訓練のための新たな言語間言語モデリング目的を提案する。
さらに,言語間の語彙差に対応する言語間のテキスト変換ネットワークを学ぶために,prlmの非文脈的埋め込み空間と三層構造を相反的に適応させる埋め込みアライメントについても紹介する。
言語理解と構造解析の両タスクの実験により、提案されたフレームワークは、スクラッチからトレーニングされた言語モデルをパフォーマンスと効率の両面で限られたデータで大幅に上回った。
さらに、リソース豊富なシナリオでスクラッチから事前学習するよりも、パフォーマンスが著しく低下しているにもかかわらず、我々の言語間モデル転送フレームワークは、はるかに経済的である。
関連論文リスト
- Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability [31.025371443719404]
自己翻訳-トレイン(Self-Translate-Train)は、大規模言語モデルがトレーニングデータをターゲット言語に翻訳し、自身の生成されたデータに基づいてモデルを微調整する手法である。
自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。
論文 参考訳(メタデータ) (2024-06-29T14:40:23Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training [45.48003947488825]
私達は2つの広く利用された強い訓練方法を研究します:反対の訓練およびランダム化された平滑化。
実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。
論文 参考訳(メタデータ) (2021-04-17T21:21:53Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。