論文の概要: A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.11674v1
- Date: Wed, 20 Sep 2023 22:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:34:23.714221
- Title: A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models
- Title(参考訳): 機械翻訳におけるパラダイムシフト:大規模言語モデルの翻訳性能の向上
- Authors: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
- Abstract要約: 生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
- 参考スコア(独自算出の注目度): 27.777372498182864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)は様々なNLPタスクにおいて顕著な進歩を遂げている。
しかし、これらの進歩は翻訳タスク、特に従来の教師付きエンコーダ・デコーダ翻訳モデルより遅れている中程度のモデルサイズ(7Bまたは13Bパラメータ)では反映されていない。
これまでの研究では、これらの中等度LSMの翻訳能力の改善が試みられてきたが、その利益は限られている。
本研究では、従来の翻訳モデルが依存する豊富な並列データの必要性をなくし、翻訳タスク用に特別に設計されたllmのための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
本稿では,ALMA (Advanced Language Model-based trAnslator) として,この戦略によって開発された LLM を紹介する。
LLaMA-2を基礎モデルとして,WMT'21(2方向)およびWMT'22(8方向)テストデータセットから10の翻訳方向にわたるゼロショット性能に対して,12BLEUおよび12COMET以上の平均的改善を達成できることを示す。
NLLB-54BモデルやGPT-3.5-text-davinci-003よりは優れており、7Bまたは13Bパラメータのみである。
この手法は機械翻訳における新しい訓練パラダイムの基礎を確立する。
関連論文リスト
- Investigating the translation capabilities of Large Language Models trained on parallel data only [1.5974665548135587]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2024-06-13T14:08:56Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。
Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文 参考訳(メタデータ) (2024-03-18T02:53:49Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。