論文の概要: Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2209.13940v3
- Date: Mon, 15 May 2023 09:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 00:42:27.376771
- Title: Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のためのスイッチトバックトランスレーションによる多言語合意の双方向改訂
- Authors: Hongyuan Lu, Haoyang Huang, Shuming Ma, Dongdong Zhang, Furu Wei, Wai
Lam
- Abstract要約: マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
- 参考スコア(独自算出の注目度): 107.83158521848372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the fact that multilingual agreement (MA) has shown its importance
for multilingual neural machine translation (MNMT), current methodologies in
the field have two shortages: (i) require parallel data between multiple
language pairs, which is not always realistic and (ii) optimize the agreement
in an ambiguous direction, which hampers the translation performance. We
present \textbf{B}idirectional \textbf{M}ultilingual \textbf{A}greement via
\textbf{S}witched \textbf{B}ack-\textbf{t}ranslation (\textbf{BMA-SBT}), a
novel and universal multilingual agreement framework for fine-tuning
pre-trained MNMT models, which (i) exempts the need for aforementioned parallel
data by using a novel method called switched BT that creates synthetic text
written in another source language using the translation target and (ii)
optimizes the agreement bidirectionally with the Kullback-Leibler Divergence
loss. Experiments indicate that BMA-SBT clearly improves the strong baselines
on the task of MNMT with three benchmarks: TED Talks, News, and Europarl.
In-depth analyzes indicate that BMA-SBT brings additive improvements to the
conventional BT method.
- Abstract(参考訳): マルチリンガル・コンセンサス(MA)がマルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示しているにもかかわらず、この分野の現在の手法には2つの欠点がある。
(i)複数の言語対間の並列データが必要であり、必ずしも現実的ではない。
(ii)合意を曖昧な方向に最適化することは、翻訳性能を阻害する。
我々は,事前学習されたmnmtモデルの微調整のための新しい普遍的多言語合意フレームワークである \textbf{b}idirectional \textbf{m}ultilingual \textbf{a}greement (\textbf{s}witched \textbf{b}ack-\textbf{t}ranslation (\textbf{bma-sbt}) を提案する。
一 翻訳目標を用いて他のソース言語で書かれた合成テキストを作成するスイッチングBTと呼ばれる新しい方法を用いて、上記の並列データの必要性を免除し、
(ii)Kullback-Leibler分散損失と双方向に合意を最適化する。
実験によると、BMA-SBTはTED Talks、News、Europarlの3つのベンチマークでMNMTのタスクの強いベースラインを明らかに改善している。
詳細な分析から,BMA-SBTは従来のBT法に付加的な改善をもたらすことが示された。
関連論文リスト
- LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation [38.30649186517611]
この課題はtextbfunderlineAuto-textbfunderlineConstriction textbfunderlineTurning mechanism for textbfunderlineMultilingual textbfunderlineNeural textbfunderlineMachine textbfunderlineTranslation (model)を導入している。
論文 参考訳(メタデータ) (2024-03-11T14:10:57Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Contrastive Learning for Many-to-many Multilingual Neural Machine
Translation [16.59039088482523]
既存の多言語機械翻訳アプローチは主に英語中心の方向に焦点を当てている。
我々は、英語以外の方向の質を重視した多言語翻訳システムの構築を目指している。
論文 参考訳(メタデータ) (2021-05-20T03:59:45Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。