論文の概要: Extrapolating Multilingual Understanding Models as Multilingual
Generators
- arxiv url: http://arxiv.org/abs/2305.13140v1
- Date: Mon, 22 May 2023 15:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:58:24.606723
- Title: Extrapolating Multilingual Understanding Models as Multilingual
Generators
- Title(参考訳): 多言語ジェネレータとしての多言語理解モデル
- Authors: Bohong Wu, Fei Yuan, Hai Zhao, Lei Li, Jingjing Xu
- Abstract要約: 本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
- 参考スコア(独自算出の注目度): 82.1355802012414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual understanding models (or encoder-based), pre-trained via masked
language modeling, have achieved promising results on many language
understanding tasks (e.g., mBERT). However, these non-autoregressive (NAR)
models still struggle to generate high-quality texts compared with
autoregressive (AR) models. Considering that encoder-based models have the
advantage of efficient generation and self-correction abilities, this paper
explores methods to empower multilingual understanding models the generation
abilities to get a unified model. Specifically, we start from a multilingual
encoder (XLM-R) and propose a \textbf{S}emantic-\textbf{G}uided
\textbf{A}lignment-then-Denoising (SGA) approach to adapt an encoder to a
multilingual generator with a small number of new parameters. Experiments show
that the proposed approach is an effective adaption method, outperforming
widely-used initialization-based methods with gains of 9.4 BLEU on machine
translation, 8.1 Rouge-L on question generation, and 5.5 METEOR on story
generation on XLM-R$_{large}$. On the other hand, we observe that XLM-R is
still inferior to mBART in supervised settings despite better results on
zero-shot settings, indicating that more exploration is required to make
understanding models strong generators.
- Abstract(参考訳): マスク付き言語モデリングによって事前訓練された多言語理解モデル(エンコーダベース)は多くの言語理解タスク(mBERTなど)において有望な結果を得た。
しかし、これらの非自己回帰型(nar)モデルは、自己回帰型(ar)モデルに比べて高品質なテキストを生成するのに苦労している。
エンコーダベースのモデルが効率的な生成と自己修正能力の利点を有することを考慮し、多言語理解モデルに統一モデルを得るための生成能力を与える方法について検討する。
具体的には,多言語エンコーダ (xlm-r) から始めて,新しいパラメータの少ない多言語生成器にエンコーダを適応させるために,\textbf{s}emantic-\textbf{g}uided \textbf{a}lignment-then-denoising (sga) アプローチを提案する。
提案手法は,機械翻訳における9.4BLEU,質問生成における8.1 Rouge-L,XLM-R$_{large}$におけるストーリ生成における5.5 METEORなど,広く利用されている初期化手法よりも優れていることを示す。
一方,xlm-rは,ゼロショット設定の精度が向上したものの,教師あり設定では依然としてmbartよりも劣っていることを観察し,モデルの強力な生成元を理解するためにはさらなる探索が必要であることを示唆した。
関連論文リスト
- Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation [1.9726019592585404]
本稿では、Few-Shot Learningによるコード翻訳を強化する新しい手法を提案する。
既存のコード翻訳のレポジトリを活用することで、最も関連性の高い例を動的に検索し、新しいコードセグメントを翻訳する際にモデルをガイドします。
Retrieval-Augmented Generationに基づく本手法は,翻訳品質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-29T00:41:48Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。