論文の概要: Improving Language Transfer Capability of Decoder-only Architecture in Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2412.02101v1
- Date: Tue, 03 Dec 2024 02:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:53.799548
- Title: Improving Language Transfer Capability of Decoder-only Architecture in Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳におけるデコーダのみアーキテクチャの言語伝達能力の向上
- Authors: Zhi Qu, Yiran Wang, Chenchen Ding, Hideki Tanaka, Masao Utiyama, Taro Watanabe,
- Abstract要約: 本稿では,デコーダのみのアーキテクチャと言語伝達能力の欠如について検討する。
本稿では,デコード処理を2段階に分割し,第1段階においてターゲットトークンを明示的に除外することを提案する。
我々は、翻訳命令に対照的な学習を課し、ゼロショット翻訳の性能を改善した。
- 参考スコア(独自算出の注目度): 28.07831604833682
- License:
- Abstract: Existing multilingual neural machine translation (MNMT) approaches mainly focus on improving models with the encoder-decoder architecture to translate multiple languages. However, decoder-only architecture has been explored less in MNMT due to its underperformance when trained on parallel data solely. In this work, we attribute the issue of the decoder-only architecture to its lack of language transfer capability. Specifically, the decoder-only architecture is insufficient in encoding source tokens with the target language features. We propose dividing the decoding process into two stages so that target tokens are explicitly excluded in the first stage to implicitly boost the transfer capability across languages. Additionally, we impose contrastive learning on translation instructions, resulting in improved performance in zero-shot translation. We conduct experiments on TED-19 and OPUS-100 datasets, considering both training from scratch and fine-tuning scenarios. Experimental results show that, compared to the encoder-decoder architecture, our methods not only perform competitively in supervised translations but also achieve improvements of up to 3.39 BLEU, 6.99 chrF++, 3.22 BERTScore, and 4.81 COMET in zero-shot translations.
- Abstract(参考訳): 既存の多言語ニューラルネットワーク翻訳(MNMT)アプローチは主に、複数の言語を翻訳するエンコーダ・デコーダアーキテクチャによるモデルの改善に焦点を当てている。
しかしながら、デコーダのみのアーキテクチャはMNMTでは、並列データのみをトレーニングする際の性能の低さのため、あまり研究されていない。
本稿では,デコーダのみのアーキテクチャの問題点として,言語伝達能力の欠如を挙げる。
具体的には、デコーダのみのアーキテクチャは、ターゲット言語の特徴を持つソーストークンを符号化するには不十分である。
本稿では,デコード処理を2段階に分割し,第1段階においてターゲットトークンを明示的に排除し,言語間の転送能力を暗黙的に向上させることを提案する。
さらに、翻訳命令に対してコントラスト学習を課し、ゼロショット翻訳の性能を向上させる。
TED-19とOPUS-100データセットの実験を行い、スクラッチと微調整の両方のシナリオからトレーニングする。
実験の結果,エンコーダデコーダアーキテクチャと比較して,教師付き翻訳において競合するだけでなく,最大3.39 BLEU,6.99 chrF++,3.22 BERTScore,4.81 COMETの改善が得られた。
関連論文リスト
- Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation [16.368747052909214]
多言語調査における基本尺度の欠如に対処するため,自己翻訳文であるアイデンティティペアを導入する。
エンコーダは、言語に依存しない状態ではなく、対象言語の表現部分空間にソース言語を転送することを示した。
本研究では,1)エンコーダにおける低ランク言語固有の埋め込みと,2)デコーダにおける表現の言語固有のコントラスト学習の2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:16:30Z) - Is Encoder-Decoder Redundant for Neural Machine Translation? [44.37101354412253]
encoder-decoderアーキテクチャは現在でも、最先端モデルのデファクトニューラルネットワークアーキテクチャである。
本研究は,バイリンガル翻訳,ターゲット単言語データを用いた翻訳,多言語翻訳の実験である。
この代替アプローチは、ベースラインエンコーダ-デコーダ変換器と同等に動作し、エンコーダ-デコーダアーキテクチャがニューラルマシン翻訳に冗長である可能性を示唆している。
論文 参考訳(メタデータ) (2022-10-21T08:33:55Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Improving Zero-shot Neural Machine Translation on Language-specific
Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。
ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。
言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-02-12T15:36:33Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。