論文の概要: MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators
- arxiv url: http://arxiv.org/abs/2110.06609v1
- Date: Wed, 13 Oct 2021 10:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 22:57:28.462416
- Title: MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators
- Title(参考訳): msp: 事前学習された言語モデルをより良くするマルチステージプロンプト
- Authors: Zhixing Tan, Xiangwen Zhang, Shuo Wang, Yang Liu
- Abstract要約: 本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
事前学習された言語モデルをより優れた翻訳者にするために,事前学習された言語モデルを介して翻訳過程を3つの段階に分けた。
各段階において、事前訓練された言語モデルを翻訳タスクに適応させるために、異なる連続的なプロンプトを独立して適用する。
- 参考スコア(独自算出の注目度): 10.557167523009392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have recently been shown to be able to perform
translation without finetuning via prompting. Inspired by these findings, we
study improving the performance of pre-trained language models on translation
tasks, where training neural machine translation models is the current de facto
approach. We present Multi-Stage Prompting, a simple and lightweight approach
for better adapting pre-trained language models to translation tasks. To make
pre-trained language models better translators, we divide the translation
process via pre-trained language models into three separate stages: the
encoding stage, the re-encoding stage, and the decoding stage. During each
stage, we independently apply different continuous prompts for allowing
pre-trained language models better adapting to translation tasks. We conduct
extensive experiments on low-, medium-, and high-resource translation tasks.
Experiments show that our method can significantly improve the translation
performance of pre-trained language models.
- Abstract(参考訳): 事前学習された言語モデルは、プロンプトによる微調整なしに翻訳ができることが最近示されている。
これらの知見に触発されて,ニューラルネットワーク翻訳モデルの訓練が現在のデファクトアプローチである翻訳タスクにおける事前学習言語モデルの性能向上について検討した。
本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
プリトレーニングされた言語モデルをより優れた翻訳者にするために、プリトレーニングされた言語モデルによる翻訳プロセスを、エンコードステージ、再エンコードステージ、デコードステージの3つの異なる段階に分割する。
各段階において、事前学習された言語モデルを翻訳タスクに適応させるために、個別に異なる連続プロンプトを適用する。
低、中、高リソースの翻訳タスクに関する広範な実験を行う。
実験により,事前学習した言語モデルの翻訳性能が大幅に向上することを示す。
関連論文リスト
- XDLM: Cross-lingual Diffusion Language Model for Machine Translation [0.0]
本稿では,事前学習と微調整の段階からなる機械翻訳のための新しい言語間拡散モデルを提案する。
いくつかの機械翻訳ベンチマークで結果を評価し,拡散ベースラインとトランスフォーマーベースラインを比較検討した。
論文 参考訳(メタデータ) (2023-07-25T15:08:34Z) - Extending the Subwording Model of Multilingual Pretrained Models for New
Languages [31.702393348980735]
本稿では,SentencePieceトークンに新たなサブワードを追加し,多言語事前学習モデルを新しい言語に適用する。
実験では、すでに訓練済みの言語のセグメンテーションを変更することなく、Inuktitut文をサブワードに分割した。
論文 参考訳(メタデータ) (2022-11-29T06:55:34Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Testing pre-trained Transformer models for Lithuanian news clustering [0.0]
英語以外の言語は、英語の事前訓練されたモデルでそのような新しい機会を活用できなかった。
我々は、リトアニア語ニュースクラスタリングのタスクの符号化として、事前訓練された多言語BERT、XLM-R、および古い学習テキスト表現法を比較した。
この結果から, 単語ベクトルを超えるように微調整できるが, 特別な訓練を施した doc2vec 埋め込みよりもはるかに低いスコアが得られた。
論文 参考訳(メタデータ) (2020-04-03T14:41:54Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。