論文の概要: Fine-tuning Large Language Models for Domain-specific Machine Translation
- arxiv url: http://arxiv.org/abs/2402.15061v2
- Date: Tue, 17 Dec 2024 12:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:09.754434
- Title: Fine-tuning Large Language Models for Domain-specific Machine Translation
- Title(参考訳): ドメイン固有機械翻訳のための微調整大言語モデル
- Authors: Jiawei Zheng, Hanghai Hong, Feiyan Liu, Xiaoli Wang, Jingsong Su, Yonggui Liang, Shikai Wu,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有機械翻訳(MT)において大きな可能性を示している。
本稿では、高品質なトレーニングデータセットを提供し、DragFTで表される新しい微調整フレームワークを提案することにより、LLMのドメイン固有MT能力の向上に焦点を当てる。
3つのドメイン固有データセットの結果から,DragFT は GPT-3.5 や GPT-4o といった先進モデルに比べて性能が向上し,優れた性能を示した。
- 参考スコア(独自算出の注目度): 7.977136709446714
- License:
- Abstract: Large language models (LLMs) have shown great potential in domain-specific machine translation (MT). However, one major issue is that LLMs pre-trained on general domain corpus might not generalize well to specific domains due to the lack of domain-specific knowledge. To address this issue, this paper focuses on enhancing the domain-specific MT capability of LLMs, by providing high-quality training datasets and proposing a novel fine-tuning framework denoted by DragFT. DragFT augments LLMs via three techniques: (i) Dictionary-enhanced prompting integrates dictionary information into prompts to improve the translation of domain-specific terminology.; (ii) RAG-based few-shot example selection provides high-quality examples that simulate both the domain and style characteristics; (iii) Fine-tuning with few-shot examples further enhances performance when using in-domain examples. We deploy DragFT on three well-known LLM backbones with 13B training parameters to validate its effectiveness. The results on three domain-specific datasets show that DragFT achieves a significant performance boost and shows superior performance compared to advanced models such as GPT-3.5 and GPT-4o. The drastic performance improvement of DragFT over existing LLMs can be attributed to incorporating relevant knowledge while mitigating noise.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有機械翻訳(MT)において大きな可能性を示している。
しかし、一つの大きな問題は、一般ドメインコーパスで事前訓練されたLLMが、ドメイン固有の知識が欠如しているため、特定のドメインに対してうまく一般化できないことである。
本稿では,高品質なトレーニングデータセットを提供し,DragFTで表される新しい微調整フレームワークを提案することで,LLMのドメイン固有MT能力の向上に焦点をあてる。
DragFTはLLMを3つのテクニックで強化します。
(i)辞書強調プロンプトは、辞書情報を統合して、ドメイン固有の用語の翻訳を改善するプロンプトである。
;
(ii)RAGベースの少ショット例選択は、ドメイン特性とスタイル特性の両方をシミュレートする高品質な例を提供する。
(3)ドメイン内例を使用する際のパフォーマンスをさらに向上させるため,少数例のファインチューニングを行う。
我々はDragFTを3つの有名なLCMバックボーンに13Bのトレーニングパラメータで展開し,その有効性を検証する。
3つのドメイン固有データセットの結果から,DragFT は GPT-3.5 や GPT-4o といった先進モデルに比べて性能が向上し,優れた性能を示した。
既存のLLMに対するDragFTの劇的な性能向上は、ノイズを緩和しながら関連する知識を取り入れることによるものである。
関連論文リスト
- Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models [55.42263732351375]
深層ニューラルネットワークの発展により、機械翻訳は長年にわたって大きく進歩してきた。
GPT-4やChatGPTのような大規模言語モデル(LLM)の出現は、MTドメインに新しいフェーズを導入している。
我々は、Long-Document Translation、Stylized Translation、Interactive TranslationなどのシナリオにおけるLLMの利点を強調し、新しいMT方向を強調した。
論文 参考訳(メタデータ) (2023-05-02T03:27:27Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。