論文の概要: Key ingredients for effective zero-shot cross-lingual knowledge transfer
in generative tasks
- arxiv url: http://arxiv.org/abs/2402.12279v1
- Date: Mon, 19 Feb 2024 16:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:35:57.960544
- Title: Key ingredients for effective zero-shot cross-lingual knowledge transfer
in generative tasks
- Title(参考訳): 生成課題における効果的なゼロショット言語間知識伝達のための主成分
- Authors: Nadezhda Chirkova, Vassilina Nikoulina
- Abstract要約: ゼロショットのクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練された言語モデルを微調整し、そのタスクを他の言語で予測するために使用することを意味する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
- 参考スコア(独自算出の注目度): 27.098099211431165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot cross-lingual generation implies finetuning of the multilingual
pretrained language model on a generation task in one language and then using
it to make predictions for this task in other languages. Previous works notice
a frequent problem of generation in a wrong language and propose approaches to
address it, usually using mT5 as a backbone model. In this work we compare
various approaches proposed from the literature in unified settings, also
including alternative backbone models, namely mBART and NLLB-200. We first
underline the importance of tuning learning rate used for finetuning, which
helps to substantially alleviate the problem of generation in the wrong
language. Then, we show that with careful learning rate tuning, the simple full
finetuning of the model acts as a very strong baseline and alternative
approaches bring only marginal improvements. Finally, we find that mBART
performs similarly to mT5 of the same size, and NLLB-200 can be competitive in
some cases. Our final models reach the performance of the approach based on
data translation which is usually considered as an upper baseline for zero-shot
cross-lingual generation.
- Abstract(参考訳): ゼロショットのクロスリンガル生成は、ある言語における生成タスクで多言語事前学習された言語モデルを微調整し、それを使用して他の言語でこのタスクの予測を行うことを意味する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。
次に,注意深い学習率チューニングを行うことで,モデルの完全な微調整が非常に強力なベースラインとなり,代替手法は限界的な改善のみをもたらすことを示した。
最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。
最終モデルは,ゼロショットクロスリンガル生成のための上位ベースラインと見なされるデータ変換に基づくアプローチの性能に達する。
関連論文リスト
- Empirical study of pretrained multilingual language models for zero-shot
cross-lingual generation [25.80773655146495]
言語横断生成は、ある言語における生成タスクにおいて、多言語事前学習言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
論文 参考訳(メタデータ) (2023-10-15T18:58:53Z) - Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。
パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。
提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文 参考訳(メタデータ) (2022-05-25T10:41:34Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。