論文の概要: BERT-JAM: Boosting BERT-Enhanced Neural Machine Translation with Joint
Attention
- arxiv url: http://arxiv.org/abs/2011.04266v1
- Date: Mon, 9 Nov 2020 09:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:59:52.901318
- Title: BERT-JAM: Boosting BERT-Enhanced Neural Machine Translation with Joint
Attention
- Title(参考訳): BERT-JAM: BERT-Enhanced Neural Machine Translation with Joint Attention
- Authors: Zhebin Zhang, Sai Wu, Dawei Jiang, Gang Chen
- Abstract要約: 本稿では、BERT-JAMと呼ばれる新しいBERT強化ニューラルマシン翻訳モデルを提案する。
BERT-JAMは、エンコーダ/デコーダ層が異なる表現間の注意を動的に割り当てるように、ジョイントアテンションモジュールを使用する。
実験の結果,BERT-JAM は複数の翻訳タスクにおいて SOTA BLEU スコアを達成できた。
- 参考スコア(独自算出の注目度): 9.366359346271567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT-enhanced neural machine translation (NMT) aims at leveraging
BERT-encoded representations for translation tasks. A recently proposed
approach uses attention mechanisms to fuse Transformer's encoder and decoder
layers with BERT's last-layer representation and shows enhanced performance.
However, their method doesn't allow for the flexible distribution of attention
between the BERT representation and the encoder/decoder representation. In this
work, we propose a novel BERT-enhanced NMT model called BERT-JAM which improves
upon existing models from two aspects: 1) BERT-JAM uses joint-attention modules
to allow the encoder/decoder layers to dynamically allocate attention between
different representations, and 2) BERT-JAM allows the encoder/decoder layers to
make use of BERT's intermediate representations by composing them using a gated
linear unit (GLU). We train BERT-JAM with a novel three-phase optimization
strategy that progressively unfreezes different components of BERT-JAM. Our
experiments show that BERT-JAM achieves SOTA BLEU scores on multiple
translation tasks.
- Abstract(参考訳): BERTエンハンスニューラルネットワーク翻訳(NMT)は、BERTエンコードされた表現を翻訳タスクに活用することを目的としている。
最近提案されたアプローチでは、Transformerのエンコーダ層とデコーダ層をBERTの最後の層表現で融合し、性能の向上を示す。
しかし、BERT表現とエンコーダ/デコーダ表現の間の注意の柔軟な分布は許されていない。
本研究では,既存のモデルを2つの側面から改善する新しいBERT拡張NMTモデルであるBERT-JAMを提案する。
1)BERT-JAMは、エンコーダ/デコーダ層が異なる表現間の注意を動的に割り当てられるように、ジョイントアテンションモジュールを使用する。
2) BERT-JAM では,エンコーダ/デコーダ層が BERT の中間表現をゲート線形単位 (GLU) を用いて構成することで利用することができる。
我々は,BERT-JAMの異なる成分を段階的に凍結する新しい3相最適化戦略でBERT-JAMを訓練する。
実験の結果,BERT-JAM は複数の翻訳タスクにおいて SOTA BLEU スコアを達成できた。
関連論文リスト
- Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - PromptBERT: Improving BERT Sentence Embeddings with Prompts [95.45347849834765]
本稿では,トークン埋め込みのバイアスを低減し,元のBERT層をより効果的にするためのプロンプトベースの文埋め込み手法を提案する。
また,教師なし設定と教師なし設定とのパフォーマンスギャップを大幅に短縮するテンプレート認知技術により,教師なし学習の新たな目標を提案する。
我々の微調整手法は教師なし設定と教師なし設定の両方において最先端のSimCSEよりも優れている。
論文 参考訳(メタデータ) (2022-01-12T06:54:21Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - CERT: Contrastive Self-supervised Learning for Language Understanding [20.17416958052909]
本稿では,トランスフォーマーからのコントラスト型自己教師型表現(CERT)を提案する。
CERTは、文レベルでのコントラッシブな自己教師型学習を用いて、言語表現モデルを事前訓練する。
そこでは,CERT が BERT を 7 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回る性能である GLUE ベンチマークを用いて,CERT を 11 個の自然言語理解タスクで評価した。
論文 参考訳(メタデータ) (2020-05-16T16:20:38Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。