論文の概要: Fine-tuning Large Language Models for Adaptive Machine Translation
- arxiv url: http://arxiv.org/abs/2312.12740v1
- Date: Wed, 20 Dec 2023 03:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:48:32.319113
- Title: Fine-tuning Large Language Models for Adaptive Machine Translation
- Title(参考訳): 適応機械翻訳のための微調整大言語モデル
- Authors: Yasmin Moslem, Rejwanul Haque, Andy Way
- Abstract要約: 適応機械翻訳のための汎用大言語モデル(LLM)の微調整
その結果、ゼロショットとワンショットの両方の翻訳シナリオの品質改善が示された。
実験により、微調整はMistralの文脈内学習能力を著しく向上させる。
- 参考スコア(独自算出の注目度): 2.648836772989769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the outcomes of fine-tuning Mistral 7B, a general-purpose
large language model (LLM), for adaptive machine translation (MT). The
fine-tuning process involves utilising a combination of zero-shot and one-shot
translation prompts within the medical domain. The primary objective is to
enhance real-time adaptive MT capabilities of Mistral 7B, enabling it to adapt
translations to the required domain at inference time. The results,
particularly for Spanish-to-English MT, showcase the efficacy of the fine-tuned
model, demonstrating quality improvements in both zero-shot and one-shot
translation scenarios, surpassing Mistral 7B's baseline performance. Notably,
the fine-tuned Mistral outperforms ChatGPT "gpt-3.5-turbo" in zero-shot
translation while achieving comparable one-shot translation quality. Moreover,
the zero-shot translation of the fine-tuned Mistral matches NLLB 3.3B's
performance, and its one-shot translation quality surpasses that of NLLB 3.3B.
These findings emphasise the significance of fine-tuning efficient LLMs like
Mistral 7B to yield high-quality zero-shot translations comparable to
task-oriented models like NLLB 3.3B. Additionally, the adaptive gains achieved
in one-shot translation are comparable to those of commercial LLMs such as
ChatGPT. Our experiments demonstrate that, with a relatively small dataset of
20,000 segments that incorporate a mix of zero-shot and one-shot prompts,
fine-tuning significantly enhances Mistral's in-context learning ability,
especially for real-time adaptive MT.
- Abstract(参考訳): 本稿では、適応機械翻訳(MT)のための汎用大規模言語モデル(LLM)である微調整Mistral 7Bの結果について述べる。
微調整プロセスは、医療領域内でゼロショットとワンショットの翻訳プロンプトの組み合わせを利用する。
主な目的は、mistral 7bのリアルタイム適応型mt機能を拡張し、推論時に必要な領域への変換を適応させることである。
結果、特にスペイン語と英語のMTでは、微調整モデルの有効性を示し、ゼロショットとワンショットの両方の翻訳シナリオの品質改善を示し、Mistral 7Bのベースライン性能を上回った。
特に、微調整されたMistralは、ゼロショット翻訳においてChatGPT"gpt-3.5-turbo"を上回り、同等のワンショット翻訳品質を実現している。
さらに、微調整ミストラルのゼロショット翻訳はNLLB 3.3Bの性能と一致し、そのワンショット翻訳品質はNLLB 3.3Bを上回る。
これらの知見は、NLLB 3.3Bのようなタスク指向モデルに匹敵する高品質なゼロショット翻訳を実現するために、Mistral 7Bのような微調整効率の良いLLMの重要性を強調している。
さらに、ワンショット翻訳で達成される適応的なゲインは、ChatGPTのような商用LLMに匹敵する。
我々の実験は、ゼロショットとワンショットのプロンプトを混合した2万セグメントの比較的小さなデータセットを用いて、微調整により、特にリアルタイム適応MTにおいて、Mistralのテキスト内学習能力が著しく向上することを示した。
関連論文リスト
- How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes [2.0109318570325847]
ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。
トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。
以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。
論文 参考訳(メタデータ) (2024-09-05T12:06:38Z) - The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.175795328685986]
機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。
フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
論文 参考訳(メタデータ) (2024-05-30T14:25:56Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。