論文の概要: Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level
- arxiv url: http://arxiv.org/abs/2406.15741v3
- Date: Tue, 29 Oct 2024 05:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:18.057091
- Title: Ladder: A Model-Agnostic Framework Boosting LLM-based Machine Translation to the Next Level
- Title(参考訳): Ladder: LLMベースの機械翻訳を次のレベルに上げるモデルに依存しないフレームワーク
- Authors: Zhaopeng Feng, Ruizhe Chen, Yan Zhang, Zijie Meng, Zuozhu Liu,
- Abstract要約: 汎用大規模言語モデル(LLM)は,広範なWebコンテンツを活用することで,機械翻訳(MT)において顕著な進歩を遂げている。
しかし、翻訳固有のLLMは、ドメイン固有の単言語コーパスを事前学習し、人間の注釈付き翻訳データを用いて微調整することで構築される。
MT用汎用LLMの性能向上のための,新しいモデルに依存しない費用対効果ツールMT-Ladderを開発した。
- 参考スコア(独自算出の注目度): 9.699022347910121
- License:
- Abstract: General-purpose Large Language Models (LLMs) like GPT-4 have achieved remarkable advancements in machine translation (MT) by leveraging extensive web content. On the other hand, translation-specific LLMs are built by pre-training on domain-specific monolingual corpora and fine-tuning with human-annotated translation data. Despite the superior performance, these methods either demand an unprecedented scale of computing and data or substantial human editing and annotation efforts. In this paper, we develop MT-Ladder, a novel model-agnostic and cost-effective tool to refine the performance of general LLMs for MT. MT-Ladder is trained on pseudo-refinement triplets which can be easily obtained from existing LLMs without additional human cost. During training, we propose a hierarchical fine-tuning strategy with an easy-to-hard schema, improving MT-Ladder's refining performance progressively. The trained MT-Ladder can be seamlessly integrated with any general-purpose LLMs to boost their translation performance. By utilizing Gemma-2B/7B as the backbone, MT-Ladder-2B can elevate raw translations to the level of top-tier open-source models (e.g., refining BigTranslate-13B with +6.91 BLEU and +3.52 COMET for XX-En), and MT-Ladder-7B can further enhance model performance to be on par with the state-of-the-art GPT-4. Extensive ablation and analysis corroborate the effectiveness of MT-Ladder in diverse settings. Our code is available at https://github.com/fzp0424/MT-Ladder
- Abstract(参考訳): GPT-4のような汎用大規模言語モデル(LLM)は、広範囲なウェブコンテンツを活用することで機械翻訳(MT)において顕著な進歩を遂げた。
一方、翻訳特化LDMは、ドメイン固有の単言語コーパスを事前学習し、人手による翻訳データによる微調整によって構築される。
優れた性能にもかかわらず、これらの手法は前例のない規模の計算とデータを必要とするか、人間の編集と注釈の努力を必要とする。
本稿では,MT-Ladderを開発した。MT-Ladderは,人的コストを伴わずに既存のLLMから容易に得ることができる擬似リファインメント三重項を用いて,MTの汎用LLMの性能を向上するための,新しいモデルに依存しない,費用効率の高いツールである。
トレーニング中、我々は容易にハードなスキーマで階層的な微調整戦略を提案し、MT-Ladderの精錬性能を徐々に改善した。
訓練されたMT-Ladderは任意の汎用LLMとシームレスに統合され、翻訳性能が向上する。
Gemma-2B/7B をバックボーンとして利用することにより、MT-Ladder-2B は最上位のオープンソースモデル(例えば、BigTranslate-13B を +6.91 BLEU と +3.52 COMET for XX-En)に書き換えることができ、MT-Ladder-7B は最先端の GPT-4 と同等のモデル性能をさらに向上させることができる。
広範囲なアブレーションと解析は、様々な環境でMT-Ladderの有効性を裏付ける。
私たちのコードはhttps://github.com/fzp0424/MT-Ladderで利用可能です。
関連論文リスト
- Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages [2.53740603524637]
機械翻訳モデル(MT)は優れた多言語表現を生成し、低リソース言語でも強力な翻訳性能が得られる。
本研究は,MTエンコーダをサンプル効率のよい自己蒸留法により,言語バックボーンに直接組み込むことにより,両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持しており、低リソース言語は英語中心のLLMに埋め込まれた豊富な知識を取り入れることができる。
論文 参考訳(メタデータ) (2024-06-18T16:00:20Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.175795328685986]
機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。
フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
論文 参考訳(メタデータ) (2024-05-30T14:25:56Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - On-the-Fly Fusion of Large Language Models and Machine Translation [3.718665608549311]
我々は,同じタスクと入力に対して,LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
論文 参考訳(メタデータ) (2023-11-14T16:49:33Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Augmenting Large Language Model Translators via Translation Memories [32.28138249566329]
翻訳メモリ(TM)をプロンプトとして使用することは、機械翻訳モデルのコンテキスト内学習において有望なアプローチである。
我々は、TMで大きな言語モデル(LLM)をプロンプトし、より優れたトランスレータを実現するための一歩を踏み出した。
論文 参考訳(メタデータ) (2023-05-27T04:47:09Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。