論文の概要: Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning
- arxiv url: http://arxiv.org/abs/2004.14218v2
- Date: Sun, 4 Oct 2020 08:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:50:39.340203
- Title: Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning
- Title(参考訳): 連続学習による事前学習型言語横断モデルの微調整手法の検討
- Authors: Zihan Liu, Genta Indra Winata, Andrea Madotto, Pascale Fung
- Abstract要約: 訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 74.25168207651376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, fine-tuning pre-trained language models (e.g., multilingual BERT)
to downstream cross-lingual tasks has shown promising results. However, the
fine-tuning process inevitably changes the parameters of the pre-trained model
and weakens its cross-lingual ability, which leads to sub-optimal performance.
To alleviate this problem, we leverage continual learning to preserve the
original cross-lingual ability of the pre-trained model when we fine-tune it to
downstream tasks. The experimental result shows that our fine-tuning methods
can better preserve the cross-lingual ability of the pre-trained model in a
sentence retrieval task. Our methods also achieve better performance than other
fine-tuning baselines on the zero-shot cross-lingual part-of-speech tagging and
named entity recognition tasks.
- Abstract(参考訳): 近年、下流言語間タスクへの微調整済み言語モデル(例えば、多言語BERT)は、有望な結果を示している。
しかし、微調整プロセスは、必然的に事前訓練されたモデルのパラメータを変更し、その言語間能力を弱め、準最適性能をもたらす。
この問題を軽減するために,我々は学習を継続的に活用し,学習したモデルの言語横断能力を下流タスクに微調整する場合に保持する。
実験の結果,本手法は文検索タスクにおいて,事前学習したモデルの言語横断能力をより良く保持できることがわかった。
提案手法は,ゼロショット言語間タグ付けおよび名前付きエンティティ認識タスクにおいて,他の微調整ベースラインよりも優れた性能を実現する。
関連論文リスト
- Distilling Monolingual and Crosslingual Word-in-Context Representations [18.87665111304974]
本研究では,単言語と言語間の両方の設定において,事前学習した言語モデルから文脈における単語の意味表現を除去する手法を提案する。
本手法では,事前学習したモデルのコーパスやパラメータの更新は不要である。
本手法は,事前学習したモデルの異なる隠れ層の出力を自己注意を用いて組み合わせることから学習する。
論文 参考訳(メタデータ) (2024-09-13T11:10:16Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators [10.557167523009392]
本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
事前学習された言語モデルをより優れた翻訳者にするために,事前学習された言語モデルを介して翻訳過程を3つの段階に分けた。
各段階において、事前訓練された言語モデルを翻訳タスクに適応させるために、異なる連続的なプロンプトを独立して適用する。
論文 参考訳(メタデータ) (2021-10-13T10:06:21Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。