論文の概要: Empirical study of pretrained multilingual language models for zero-shot
cross-lingual generation
- arxiv url: http://arxiv.org/abs/2310.09917v2
- Date: Wed, 15 Nov 2023 23:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:21:39.247271
- Title: Empirical study of pretrained multilingual language models for zero-shot
cross-lingual generation
- Title(参考訳): ゼロショットクロスランガル生成のための事前訓練された多言語言語モデルの実証的研究
- Authors: Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina
- Abstract要約: 言語横断生成は、ある言語における生成タスクにおいて、多言語事前学習言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
- 参考スコア(独自算出の注目度): 25.80773655146495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot cross-lingual generation assumes finetuning the multilingual
pretrained language model (mPLM) on a generation task in one language and then
using it to make predictions for this task in other languages. Previous works
notice a frequent problem of generation in a wrong language and propose
approaches to address it, usually using mT5 as a backbone model. In this work,
we test alternative mPLMs, such as mBART and NLLB-200, and compare various
approaches proposed in the literature in a unified setting. We first underline
the importance of tuning learning rate used for finetuning, which helps to
substantially alleviate the problem of generation in the wrong language. Then,
we show that with careful learning rate tuning, the simple full finetuning of
the model acts as a very strong baseline; other competitive approaches include
parameter-efficient tuning with adapters and training on several source
languages. Finally, we find that mBART performs similarly to mT5 of the same
size, and NLLB-200 can be competitive in some cases.
- Abstract(参考訳): ゼロショットクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。
そこで,注意深い学習率チューニングでは,モデルの完全微調整が非常に強力なベースラインとして機能し,他の競合的アプローチとしては,アダプタを用いたパラメータ効率のチューニングや,複数のソース言語でのトレーニングがある。
最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。
関連論文リスト
- Key ingredients for effective zero-shot cross-lingual knowledge transfer
in generative tasks [27.098099211431165]
ゼロショットのクロスランガル生成は、ある言語における生成タスクにおいて、多言語事前訓練された言語モデルを微調整し、そのタスクを他の言語で予測するために使用することを意味する。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。
論文 参考訳(メタデータ) (2024-02-19T16:43:57Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。