論文の概要: BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2109.04588v1
- Date: Thu, 9 Sep 2021 23:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:36:06.753466
- Title: BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural
Machine Translation
- Title(参考訳): バート? マクバート? それともビバート?
ニューラルマシン翻訳のための文脈化埋め込みに関する研究
- Authors: Haoran Xu, Benjamin Van Durme, Kenton Murray
- Abstract要約: 本稿では,バイリンガル事前学習型言語モデル(BiBERT)が最先端の翻訳性能を実現することを示す。
我々の最良のモデルは、IWSLT'14データセットでは30.45点、IWSLT'14データセットでは38.61点、WMT'14データセットでは31.26点、WMT'14データセットでは34.94点である。
- 参考スコア(独自算出の注目度): 38.017030073108735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of bidirectional encoders using masked language models, such as
BERT, on numerous natural language processing tasks has prompted researchers to
attempt to incorporate these pre-trained models into neural machine translation
(NMT) systems. However, proposed methods for incorporating pre-trained models
are non-trivial and mainly focus on BERT, which lacks a comparison of the
impact that other pre-trained models may have on translation performance. In
this paper, we demonstrate that simply using the output (contextualized
embeddings) of a tailored and suitable bilingual pre-trained language model
(dubbed BiBERT) as the input of the NMT encoder achieves state-of-the-art
translation performance. Moreover, we also propose a stochastic layer selection
approach and a concept of dual-directional translation model to ensure the
sufficient utilization of contextualized embeddings. In the case of without
using back translation, our best models achieve BLEU scores of 30.45 for En->De
and 38.61 for De->En on the IWSLT'14 dataset, and 31.26 for En->De and 34.94
for De->En on the WMT'14 dataset, which exceeds all published numbers.
- Abstract(参考訳): BERTのようなマスク付き言語モデルを用いた双方向エンコーダが多くの自然言語処理タスクで成功し、これらの事前学習されたモデルをニューラルマシン翻訳(NMT)システムに組み込もうとしている。
しかし、事前学習モデルを統合するための提案手法は非自明であり、主にBERTに焦点を当てており、他の事前学習モデルが翻訳性能に与える影響を比較できない。
本稿では,NMTエンコーダの入力として,調整済みで適切なバイリンガル事前学習言語モデル(BiBERT)の出力(コンテキスト埋め込み)を用いることで,最先端の翻訳性能が得られることを示す。
さらに,確率的層選択手法と双方向翻訳モデルの概念を提案し,文脈的埋め込みの十分な利用を確実にする。
逆変換を使わない場合は、iwslt'14データセットでは30.45点、iwslt'14データセットでは38.61点、wmt'14データセットでは31.26点、wmt'14データセットでは34.94点のbleuスコアを達成する。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。