論文の概要: Fine-tuning Large Language Models for Domain-specific Machine Translation
- arxiv url: http://arxiv.org/abs/2402.15061v2
- Date: Tue, 17 Dec 2024 12:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:09.754434
- Title: Fine-tuning Large Language Models for Domain-specific Machine Translation
- Title(参考訳): ドメイン固有機械翻訳のための微調整大言語モデル
- Authors: Jiawei Zheng, Hanghai Hong, Feiyan Liu, Xiaoli Wang, Jingsong Su, Yonggui Liang, Shikai Wu,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有機械翻訳(MT)において大きな可能性を示している。
本稿では、高品質なトレーニングデータセットを提供し、DragFTで表される新しい微調整フレームワークを提案することにより、LLMのドメイン固有MT能力の向上に焦点を当てる。
3つのドメイン固有データセットの結果から,DragFT は GPT-3.5 や GPT-4o といった先進モデルに比べて性能が向上し,優れた性能を示した。
- 参考スコア(独自算出の注目度): 7.977136709446714
- License:
- Abstract: Large language models (LLMs) have shown great potential in domain-specific machine translation (MT). However, one major issue is that LLMs pre-trained on general domain corpus might not generalize well to specific domains due to the lack of domain-specific knowledge. To address this issue, this paper focuses on enhancing the domain-specific MT capability of LLMs, by providing high-quality training datasets and proposing a novel fine-tuning framework denoted by DragFT. DragFT augments LLMs via three techniques: (i) Dictionary-enhanced prompting integrates dictionary information into prompts to improve the translation of domain-specific terminology.; (ii) RAG-based few-shot example selection provides high-quality examples that simulate both the domain and style characteristics; (iii) Fine-tuning with few-shot examples further enhances performance when using in-domain examples. We deploy DragFT on three well-known LLM backbones with 13B training parameters to validate its effectiveness. The results on three domain-specific datasets show that DragFT achieves a significant performance boost and shows superior performance compared to advanced models such as GPT-3.5 and GPT-4o. The drastic performance improvement of DragFT over existing LLMs can be attributed to incorporating relevant knowledge while mitigating noise.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有機械翻訳(MT)において大きな可能性を示している。
しかし、一つの大きな問題は、一般ドメインコーパスで事前訓練されたLLMが、ドメイン固有の知識が欠如しているため、特定のドメインに対してうまく一般化できないことである。
本稿では,高品質なトレーニングデータセットを提供し,DragFTで表される新しい微調整フレームワークを提案することで,LLMのドメイン固有MT能力の向上に焦点をあてる。
DragFTはLLMを3つのテクニックで強化します。
(i)辞書強調プロンプトは、辞書情報を統合して、ドメイン固有の用語の翻訳を改善するプロンプトである。
;
(ii)RAGベースの少ショット例選択は、ドメイン特性とスタイル特性の両方をシミュレートする高品質な例を提供する。
(3)ドメイン内例を使用する際のパフォーマンスをさらに向上させるため,少数例のファインチューニングを行う。
我々はDragFTを3つの有名なLCMバックボーンに13Bのトレーニングパラメータで展開し,その有効性を検証する。
3つのドメイン固有データセットの結果から,DragFT は GPT-3.5 や GPT-4o といった先進モデルに比べて性能が向上し,優れた性能を示した。
既存のLLMに対するDragFTの劇的な性能向上は、ノイズを緩和しながら関連する知識を取り入れることによるものである。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。
本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-12T16:20:57Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Low Resource Style Transfer via Domain Adaptive Meta Learning [30.323491061441857]
本稿では,DAMLとATMの2つの部分からなるDAML-ATM(Domain Adaptive Meta-Learning with Adversarial Transfer Model)を提案する。
DAMLは、複数の異種ソースドメインで一般的な知識を学ぶためのドメイン適応型メタラーニングアプローチであり、少量のデータで新しい未知のドメインに適応することができる。
また,非教師付きTSTアプローチであるAdversarial Transfer Model (ATM)を提案する。
論文 参考訳(メタデータ) (2022-05-25T03:58:24Z) - Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。
LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。
我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-10-12T17:57:00Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。