論文の概要: Fine-tuning Large Language Models for Domain-specific Machine
Translation
- arxiv url: http://arxiv.org/abs/2402.15061v1
- Date: Fri, 23 Feb 2024 02:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:49:32.041837
- Title: Fine-tuning Large Language Models for Domain-specific Machine
Translation
- Title(参考訳): ドメイン固有機械翻訳のための微調整大言語モデル
- Authors: Jiawei Zheng, Hanghai Hong, Xiaoli Wang, Jingsong Su, Yonggui Liang
and Shikai Wu
- Abstract要約: 大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
- 参考スコア(独自算出の注目度): 8.439661191792897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in machine
translation (MT). However, their potential in domain-specific MT remains
under-explored. Current LLM-based MT systems still face several challenges.
First, for LLMs with in-context learning, their effectiveness is highly
sensitive to input translation examples, and processing them can increase
inference costs. They often require extra post-processing due to
over-generation. Second, LLMs with fine-tuning on domain-specific data often
require high training costs for domain adaptation, and may weaken the zero-shot
MT capabilities of LLMs due to over-specialization. The aforementioned methods
can struggle to translate rare words in domain transfer scenarios. To address
these challenges, this paper proposes a prompt-oriented fine-tuning method,
denoted as LlamaIT, to effectively and efficiently fine-tune a general-purpose
LLM for domain-specific MT tasks. First, we construct a task-specific
mix-domain dataset, which is then used to fine-tune the LLM with LoRA. This can
eliminate the need for input translation examples, post-processing, or
over-specialization. By zero-shot prompting with instructions, we adapt the MT
tasks to the target domain at inference time. To further elicit the MT
capability for rare words, we construct new prompts by incorporating
domain-specific bilingual vocabulary. We also conduct extensive experiments on
both publicly available and self-constructed datasets. The results show that
our LlamaIT can significantly enhance the domain-specific MT capabilities of
the LLM, meanwhile preserving its zero-shot MT capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳(MT)に大きな進歩をもたらした。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
現在、LLMベースのMTシステムはいくつかの課題に直面している。
まず、文脈内学習のLLMにおいて、その効果は入力翻訳例に非常に敏感であり、その処理により推論コストが増大する可能性がある。
しばしば過剰な世代のために余分な後処理を必要とする。
第二に、ドメイン固有のデータを微調整するLLMは、ドメイン適応のための高いトレーニングコストを必要とすることが多く、特殊化の過度により、LLMのゼロショットMT能力を弱める可能性がある。
上記の方法はドメイン転送のシナリオで稀な単語を翻訳するのに苦労する。
これらの課題に対処するために,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
まず、タスク固有のミックスドメインデータセットを構築し、LLMをLoRAで微調整する。
これにより、入力翻訳例、後処理、過剰特殊化の必要性がなくなる。
命令によるゼロショットプロンプトにより、MTタスクを推論時にターゲット領域に適応させる。
希少語に対するmt能力をさらに高めるため、ドメイン固有のバイリンガル語彙を組み込んだ新しいプロンプトを構築した。
また、公開データセットと自己構築データセットの両方について広範な実験を行います。
その結果,LlamaITはゼロショットMT能力を保ちながら,LLMのドメイン固有MT能力を著しく向上させることができることがわかった。
関連論文リスト
- Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models [55.42263732351375]
深層ニューラルネットワークの発展により、機械翻訳は長年にわたって大きく進歩してきた。
GPT-4やChatGPTのような大規模言語モデル(LLM)の出現は、MTドメインに新しいフェーズを導入している。
我々は、Long-Document Translation、Stylized Translation、Interactive TranslationなどのシナリオにおけるLLMの利点を強調し、新しいMT方向を強調した。
論文 参考訳(メタデータ) (2023-05-02T03:27:27Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。