論文の概要: Emergent Communication Pretraining for Few-Shot Machine Translation
- arxiv url: http://arxiv.org/abs/2011.00890v1
- Date: Mon, 2 Nov 2020 10:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:46:54.025076
- Title: Emergent Communication Pretraining for Few-Shot Machine Translation
- Title(参考訳): ファウショット機械翻訳のための創発的通信事前学習
- Authors: Yaoyiran Li, Edoardo M. Ponti, Ivan Vuli\'c and Anna Korhonen
- Abstract要約: 我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
- 参考スコア(独自算出の注目度): 66.48990742411033
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While state-of-the-art models that rely upon massively multilingual
pretrained encoders achieve sample efficiency in downstream applications, they
still require abundant amounts of unlabelled text. Nevertheless, most of the
world's languages lack such resources. Hence, we investigate a more radical
form of unsupervised knowledge transfer in the absence of linguistic data. In
particular, for the first time we pretrain neural networks via emergent
communication from referential games. Our key assumption is that grounding
communication on images---as a crude approximation of real-world
environments---inductively biases the model towards learning natural languages.
On the one hand, we show that this substantially benefits machine translation
in few-shot settings. On the other hand, this also provides an extrinsic
evaluation protocol to probe the properties of emergent languages ex vitro.
Intuitively, the closer they are to natural languages, the higher the gains
from pretraining on them should be. For instance, in this work we measure the
influence of communication success and maximum sequence length on downstream
performances. Finally, we introduce a customised adapter layer and annealing
strategies for the regulariser of maximum-a-posteriori inference during
fine-tuning. These turn out to be crucial to facilitate knowledge transfer and
prevent catastrophic forgetting. Compared to a recurrent baseline, our method
yields gains of $59.0\%$$\sim$$147.6\%$ in BLEU score with only $500$ NMT
training instances and $65.1\%$$\sim$$196.7\%$ with $1,000$ NMT training
instances across four language pairs. These proof-of-concept results reveal the
potential of emergent communication pretraining for both natural language
processing tasks in resource-poor settings and extrinsic evaluation of
artificial languages.
- Abstract(参考訳): 非常に多言語で事前訓練されたエンコーダに依存する最先端のモデルでは、下流アプリケーションではサンプル効率が向上するが、まだ大量の未学習テキストが必要である。
しかし、世界のほとんどの言語はそのような資源を欠いている。
そこで本研究では,言語データがない場合の教師なし知識伝達のより急進的な形態について検討する。
特に,レファレンシャルゲームからの創発的コミュニケーションを通じてニューラルネットワークをプレトレーニングするのは初めてです。
私たちの重要な前提は、画像上の接地コミュニケーションは、現実の環境の粗い近似として、自然言語を学ぶためのモデルに誘導的に偏っている、ということです。
一方、これは数ショット設定で機械翻訳にかなり効果があることが示される。
一方,本研究では,創発言語の性質をin vitroで調査するための外部評価プロトコルも提供する。
直感的には、それらが自然言語に近づくほど、それらを事前訓練することによって得られる利益は高くなる。
例えば、本研究では、下流の性能に及ぼす通信成功と最大シーケンス長の影響を計測する。
最後に,微調整中における最大ポスペリリ推論の正規化のためのアダプタ層とアニール方式を導入する。
これらは、知識伝達の促進と破滅的な忘れの防止に不可欠であることが判明した。
再帰的なベースラインと比較すると、この方法では、$9.0\%$$$\sim$ $147.6\%$ in bleuスコアが$500 nmtトレーニングインスタンスで、$5.1\%$$$$\sim$ $196.7\%$で$1,000$ nmtトレーニングインスタンスで4つの言語ペアにまたがる。
これらの概念実証の結果から,自然言語処理タスクと人工言語の外部評価の両方において,創発的コミュニケーション事前学習の可能性が示された。
関連論文リスト
- DEPT: Decoupled Embeddings for Pre-training Language Models [16.84502158672086]
DEPTはグローバルな語彙を共有しないトレーニングを可能にする。
我々は、13億パラメータモデルの第一語彙非依存フェデレーションによる多言語事前学習を通じて、DEPTのポテンシャルを実証する。
論文 参考訳(メタデータ) (2024-10-07T13:24:24Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。