論文の概要: Simulated Multiple Reference Training Improves Low-Resource Machine
Translation
- arxiv url: http://arxiv.org/abs/2004.14524v2
- Date: Tue, 13 Oct 2020 15:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:58:23.557364
- Title: Simulated Multiple Reference Training Improves Low-Resource Machine
Translation
- Title(参考訳): マルチリファレンス学習による低リソース機械翻訳の改善
- Authors: Huda Khayrallah, Brian Thompson, Matt Post, Philipp Koehn
- Abstract要約: 我々は,可能翻訳の全空間を近似する新しいMTトレーニング手法であるSMRT(Simulated Multiple Reference Training)を導入する。
SMRTの低リソース環境での英語翻訳における有効性を示し,1.2から7.0BLEUに改善した。
- 参考スコア(独自算出の注目度): 22.404646693366054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many valid translations exist for a given sentence, yet machine translation
(MT) is trained with a single reference translation, exacerbating data sparsity
in low-resource settings. We introduce Simulated Multiple Reference Training
(SMRT), a novel MT training method that approximates the full space of possible
translations by sampling a paraphrase of the reference sentence from a
paraphraser and training the MT model to predict the paraphraser's distribution
over possible tokens. We demonstrate the effectiveness of SMRT in low-resource
settings when translating to English, with improvements of 1.2 to 7.0 BLEU. We
also find SMRT is complementary to back-translation.
- Abstract(参考訳): 与えられた文に対して有効な翻訳は数多く存在するが、機械翻訳(MT)は単一の参照翻訳で訓練され、低リソース設定でデータ空間が悪化する。
パラメータから参照文のパラフレーズをサンプリングし,MTモデルをトレーニングし,可能なトークン上でのパラフレーズの分布を予測することで,可能翻訳の全空間を近似する新しいMTトレーニング手法であるSimulated Multiple Reference Training (SMRT)を導入する。
SMRTの低リソース環境での英語翻訳における有効性を示し,1.2から7.0BLEUに改善した。
また、SMRTは後方翻訳と相補的であることもわかりました。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - IntGrad MT: Eliciting LLMs' Machine Translation Capabilities with Sentence Interpolation and Gradual MT [5.323504404265276]
大規模言語モデル(LLM)は、追加の並列コーパスを微調整することなく、翻訳において強力な性能を示している。
これまでの研究は、関連するいくつかの例や辞書や文法書などの外部リソースを活用することでこの問題を軽減することに重点を置いてきた。
本稿では,LLM固有の翻訳機能を完全に活用することを目的とした,IntGrad MTという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T15:26:28Z) - Choose the Final Translation from NMT and LLM hypotheses Using MBR Decoding: HW-TSC's Submission to the WMT24 General MT Shared Task [9.819139035652137]
本稿では,Huawei Translate Services Center(HW-TSC)をWMT24汎用機械翻訳(MT)共有タスクに提出する。
我々は、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習などのトレーニング戦略を用いて、ニューラルマシン翻訳(NMT)モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-09-23T08:25:37Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。