論文の概要: ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2403.06745v1
- Date: Mon, 11 Mar 2024 14:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:55:11.090173
- Title: ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のためのACT-MNMT自動制約変換
- Authors: Shaojie Dai, Xin Liu, Ping Luo and Yue Yu
- Abstract要約: この課題はtextbfunderlineAuto-textbfunderlineConstriction textbfunderlineTurning mechanism for textbfunderlineMultilingual textbfunderlineNeural textbfunderlineMachine textbfunderlineTranslation (model)を導入している。
- 参考スコア(独自算出の注目度): 38.30649186517611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) has achieved promising performance in multilingual
machine translation tasks through zero/few-shot prompts or prompt-tuning.
However, due to the mixture of multilingual data during the pre-training of
LLM, the LLM-based translation models face the off-target issue in both
prompt-based methods, including a series of phenomena, namely instruction
misunderstanding, translation with wrong language and over-generation. For this
issue, this paper introduces an
\textbf{\underline{A}}uto-\textbf{\underline{C}}onstriction
\textbf{\underline{T}}urning mechanism for \textbf{\underline{M}}ultilingual
\textbf{\underline{N}}eural \textbf{\underline{M}}achine
\textbf{\underline{T}}ranslation (\model), which is a novel supervised
fine-tuning mechanism and orthogonal to the traditional prompt-based methods.
In this method, \model automatically constructs a constrained template in the
target side by adding trigger tokens ahead of the ground truth. Furthermore,
trigger tokens can be arranged and combined freely to represent different task
semantics, and they can be iteratively updated to maximize the label
likelihood. Experiments are performed on WMT test sets with multiple metrics,
and the experimental results demonstrate that \model achieves substantially
improved performance across multiple translation directions and reduce the
off-target phenomena in the translation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ゼロ/ファウショットプロンプトやプロンプトチューニングによる多言語機械翻訳タスクにおいて有望な性能を達成した。
しかし、LLMの事前学習中に多言語データが混在しているため、LLMベースの翻訳モデルは、命令誤解、間違った言語による翻訳、過剰生成といった一連の現象を含む、プロンプトベースの手法の両方において、ターゲット外問題に直面している。
本稿では,従来のプロンプトベースの手法と直交する新しい微調整機構であるtextbf{\underline{A}}uto-\textbf{\underline{C}}onstriction \textbf{\underline{T}}urning mechanism for \textbf{\underline{M}}ultilingual \textbf{\underline{N}}eural \textbf{\underline{M}}achine \textbf{\underline{T}}ranslation (\model)を紹介する。
この方法では、ターゲット側に制約付きテンプレートを自動で構築し、トリガートークンを基底真理に先立って追加する。
さらにトリガートークンは、異なるタスクセマンティクスを表現するために自由に配置され、組み合わせることができ、ラベルの確率を最大化するために反復的に更新することができる。
複数の指標を用いてWMTテストセット上で実験を行い, 実験結果から, 複数方向の変換性能が大幅に向上し, 翻訳におけるオフターゲット現象の低減が図られた。
関連論文リスト
- LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - G-SPEED: General SParse Efficient Editing MoDel [25.48360227520061]
underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
論文 参考訳(メタデータ) (2023-10-16T15:01:18Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。