論文の概要: Investigating Multi-Pivot Ensembling with Massively Multilingual Machine
Translation Models
- arxiv url: http://arxiv.org/abs/2311.07439v1
- Date: Mon, 13 Nov 2023 16:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:48:17.699778
- Title: Investigating Multi-Pivot Ensembling with Massively Multilingual Machine
Translation Models
- Title(参考訳): 多言語機械翻訳モデルを用いたマルチピボットセンシングの検討
- Authors: Alireza Mohammadshahi and Jannis Vamvas and Rico Sennrich
- Abstract要約: 複数の言語をピボットする方法を再検討する。
我々は最も確実な予測に偏りのある組合せ戦略であるMaxEnsを提案する。
我々は、FLORESベンチマークで20の低リソース言語方向の異なる戦略を評価する。
- 参考スコア(独自算出の注目度): 53.84948040596055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massively multilingual machine translation models allow for the translation
of a large number of languages with a single model, but have limited
performance on low- and very-low-resource translation directions. Pivoting via
high-resource languages remains a strong strategy for low-resource directions,
and in this paper we revisit ways of pivoting through multiple languages.
Previous work has used a simple averaging of probability distributions from
multiple paths, but we find that this performs worse than using a single pivot,
and exacerbates the hallucination problem because the same hallucinations can
be probable across different paths. As an alternative, we propose MaxEns, a
combination strategy that is biased towards the most confident predictions,
hypothesising that confident predictions are less prone to be hallucinations.
We evaluate different strategies on the FLORES benchmark for 20 low-resource
language directions, demonstrating that MaxEns improves translation quality for
low-resource languages while reducing hallucination in translations, compared
to both direct translation and an averaging approach. On average, multi-pivot
strategies still lag behind using English as a single pivot language, raising
the question of how to identify the best pivoting strategy for a given
translation direction.
- Abstract(参考訳): 大規模な多言語機械翻訳モデルでは、1つのモデルで多数の言語を翻訳できるが、低リソースと低リソースの翻訳では性能が限られている。
高いリソース言語によるピボットは、低リソースの方向性のための強力な戦略であり、本論文では、複数の言語をピボットする方法を再検討する。
従来の研究では、複数の経路からの確率分布の単純な平均化が用いられてきたが、これは1つのピボットを使うよりも悪く、同じ幻覚が異なる経路で観測できるため、幻覚の問題を悪化させる。
代替として、最も自信のある予測に偏りがある組合せ戦略であるMaxEnsを提案し、自信のある予測は幻覚の傾向が低いと仮定する。
我々は,低リソース言語20方向に対するフロレスベンチマークの異なる戦略を評価し,maxensが低リソース言語に対する翻訳品質を改善しつつ,翻訳における幻覚を低減し,直接翻訳と平均化アプローチの両方に比較した。
平均的なマルチピボット戦略は、英語を単一のピボット言語として使うよりも遅れており、与えられた翻訳方向の最良のピボット戦略をどうやって特定するかという疑問が提起されている。
関連論文リスト
- Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - Onception: Active Learning with Expert Advice for Real World Machine
Translation [0.0]
機械翻訳の最も活発な学習アプローチは、ソース言語における文プールの存在を前提としており、翻訳または後編集を提供するために人間のアノテーションに依存している。
本稿では, 実世界のヒューマン・イン・ザ・ループのシナリオを仮定する。 (i) 原文は簡単には入手できないが, ストリームに到達し, (ii) 自動翻訳は, 正しい/編集された翻訳ではなく, 評価の形でフィードバックを受ける。
論文 参考訳(メタデータ) (2022-03-09T03:32:42Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。