論文の概要: Fine-tuning Large Language Models for Domain-specific Machine
Translation
- arxiv url: http://arxiv.org/abs/2402.15061v1
- Date: Fri, 23 Feb 2024 02:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:49:32.041837
- Title: Fine-tuning Large Language Models for Domain-specific Machine
Translation
- Title(参考訳): ドメイン固有機械翻訳のための微調整大言語モデル
- Authors: Jiawei Zheng, Hanghai Hong, Xiaoli Wang, Jingsong Su, Yonggui Liang
and Shikai Wu
- Abstract要約: 大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
- 参考スコア(独自算出の注目度): 8.439661191792897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in machine
translation (MT). However, their potential in domain-specific MT remains
under-explored. Current LLM-based MT systems still face several challenges.
First, for LLMs with in-context learning, their effectiveness is highly
sensitive to input translation examples, and processing them can increase
inference costs. They often require extra post-processing due to
over-generation. Second, LLMs with fine-tuning on domain-specific data often
require high training costs for domain adaptation, and may weaken the zero-shot
MT capabilities of LLMs due to over-specialization. The aforementioned methods
can struggle to translate rare words in domain transfer scenarios. To address
these challenges, this paper proposes a prompt-oriented fine-tuning method,
denoted as LlamaIT, to effectively and efficiently fine-tune a general-purpose
LLM for domain-specific MT tasks. First, we construct a task-specific
mix-domain dataset, which is then used to fine-tune the LLM with LoRA. This can
eliminate the need for input translation examples, post-processing, or
over-specialization. By zero-shot prompting with instructions, we adapt the MT
tasks to the target domain at inference time. To further elicit the MT
capability for rare words, we construct new prompts by incorporating
domain-specific bilingual vocabulary. We also conduct extensive experiments on
both publicly available and self-constructed datasets. The results show that
our LlamaIT can significantly enhance the domain-specific MT capabilities of
the LLM, meanwhile preserving its zero-shot MT capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳(MT)に大きな進歩をもたらした。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
現在、LLMベースのMTシステムはいくつかの課題に直面している。
まず、文脈内学習のLLMにおいて、その効果は入力翻訳例に非常に敏感であり、その処理により推論コストが増大する可能性がある。
しばしば過剰な世代のために余分な後処理を必要とする。
第二に、ドメイン固有のデータを微調整するLLMは、ドメイン適応のための高いトレーニングコストを必要とすることが多く、特殊化の過度により、LLMのゼロショットMT能力を弱める可能性がある。
上記の方法はドメイン転送のシナリオで稀な単語を翻訳するのに苦労する。
これらの課題に対処するために,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
まず、タスク固有のミックスドメインデータセットを構築し、LLMをLoRAで微調整する。
これにより、入力翻訳例、後処理、過剰特殊化の必要性がなくなる。
命令によるゼロショットプロンプトにより、MTタスクを推論時にターゲット領域に適応させる。
希少語に対するmt能力をさらに高めるため、ドメイン固有のバイリンガル語彙を組み込んだ新しいプロンプトを構築した。
また、公開データセットと自己構築データセットの両方について広範な実験を行います。
その結果,LlamaITはゼロショットMT能力を保ちながら,LLMのドメイン固有MT能力を著しく向上させることができることがわかった。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-12T16:20:57Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Low Resource Style Transfer via Domain Adaptive Meta Learning [30.323491061441857]
本稿では,DAMLとATMの2つの部分からなるDAML-ATM(Domain Adaptive Meta-Learning with Adversarial Transfer Model)を提案する。
DAMLは、複数の異種ソースドメインで一般的な知識を学ぶためのドメイン適応型メタラーニングアプローチであり、少量のデータで新しい未知のドメインに適応することができる。
また,非教師付きTSTアプローチであるAdversarial Transfer Model (ATM)を提案する。
論文 参考訳(メタデータ) (2022-05-25T03:58:24Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。