Fugu-MT 論文翻訳(概要): Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation

論文の概要: Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation

arxiv url: http://arxiv.org/abs/2310.09917v2
Date: Wed, 15 Nov 2023 23:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 22:21:39.247271
Title: Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation
Title（参考訳）: ゼロショットクロスランガル生成のための事前訓練された多言語言語モデルの実証的研究
Authors: Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina
Abstract要約: 言語横断生成は、ある言語における生成タスクにおいて、多言語事前学習言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
参考スコア（独自算出の注目度）: 25.80773655146495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot cross-lingual generation assumes finetuning the multilingual pretrained language model (mPLM) on a generation task in one language and then using it to make predictions for this task in other languages. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work, we test alternative mPLMs, such as mBART and NLLB-200, and compare various approaches proposed in the literature in a unified setting. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline; other competitive approaches include parameter-efficient tuning with adapters and training on several source languages. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases.
Abstract（参考訳）: ゼロショットクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。そこで,注意深い学習率チューニングでは,モデルの完全微調整が非常に強力なベースラインとして機能し,他の競合的アプローチとしては,アダプタを用いたパラメータ効率のチューニングや,複数のソース言語でのトレーニングがある。最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。

関連論文リスト

Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks [22.93790760274486]
ゼロショットの言語間知識伝達により、ある言語でタスクを微調整し、他の言語でタスクの予測を行う多言語事前学習言語モデルが可能になる。以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
論文参考訳（メタデータ） (2024-02-19T16:43:57Z)
Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文参考訳（メタデータ） (2022-11-03T13:19:32Z)
Language-Family Adapters for Low-Resource Multilingual Neural Machine Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文参考訳（メタデータ） (2022-09-30T05:02:42Z)
High-resource Language-specific Training for Multilingual Neural Machine Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。 HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文参考訳（メタデータ） (2022-07-11T14:33:13Z)
Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文参考訳（メタデータ） (2022-04-05T15:44:27Z)
ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。 NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文参考訳（メタデータ） (2021-06-03T05:08:01Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)
Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文参考訳（メタデータ） (2020-04-24T17:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。