Fugu-MT 論文翻訳(概要): Fine-tuning Large Language Models for Domain-specific Machine Translation

論文の概要: Fine-tuning Large Language Models for Domain-specific Machine Translation

arxiv url: http://arxiv.org/abs/2402.15061v1
Date: Fri, 23 Feb 2024 02:24:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:49:32.041837
Title: Fine-tuning Large Language Models for Domain-specific Machine Translation
Title（参考訳）: ドメイン固有機械翻訳のための微調整大言語モデル
Authors: Jiawei Zheng, Hanghai Hong, Xiaoli Wang, Jingsong Su, Yonggui Liang and Shikai Wu
Abstract要約: 大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
参考スコア（独自算出の注目度）: 8.439661191792897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have made significant progress in machine translation (MT). However, their potential in domain-specific MT remains under-explored. Current LLM-based MT systems still face several challenges. First, for LLMs with in-context learning, their effectiveness is highly sensitive to input translation examples, and processing them can increase inference costs. They often require extra post-processing due to over-generation. Second, LLMs with fine-tuning on domain-specific data often require high training costs for domain adaptation, and may weaken the zero-shot MT capabilities of LLMs due to over-specialization. The aforementioned methods can struggle to translate rare words in domain transfer scenarios. To address these challenges, this paper proposes a prompt-oriented fine-tuning method, denoted as LlamaIT, to effectively and efficiently fine-tune a general-purpose LLM for domain-specific MT tasks. First, we construct a task-specific mix-domain dataset, which is then used to fine-tune the LLM with LoRA. This can eliminate the need for input translation examples, post-processing, or over-specialization. By zero-shot prompting with instructions, we adapt the MT tasks to the target domain at inference time. To further elicit the MT capability for rare words, we construct new prompts by incorporating domain-specific bilingual vocabulary. We also conduct extensive experiments on both publicly available and self-constructed datasets. The results show that our LlamaIT can significantly enhance the domain-specific MT capabilities of the LLM, meanwhile preserving its zero-shot MT capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)は機械翻訳(MT)に大きな進歩をもたらした。しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。現在、LLMベースのMTシステムはいくつかの課題に直面している。まず、文脈内学習のLLMにおいて、その効果は入力翻訳例に非常に敏感であり、その処理により推論コストが増大する可能性がある。しばしば過剰な世代のために余分な後処理を必要とする。第二に、ドメイン固有のデータを微調整するLLMは、ドメイン適応のための高いトレーニングコストを必要とすることが多く、特殊化の過度により、LLMのゼロショットMT能力を弱める可能性がある。上記の方法はドメイン転送のシナリオで稀な単語を翻訳するのに苦労する。これらの課題に対処するために,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。まず、タスク固有のミックスドメインデータセットを構築し、LLMをLoRAで微調整する。これにより、入力翻訳例、後処理、過剰特殊化の必要性がなくなる。命令によるゼロショットプロンプトにより、MTタスクを推論時にターゲット領域に適応させる。希少語に対するmt能力をさらに高めるため、ドメイン固有のバイリンガル語彙を組み込んだ新しいプロンプトを構築した。また、公開データセットと自己構築データセットの両方について広範な実験を行います。その結果,LlamaITはゼロショットMT能力を保ちながら,LLMのドメイン固有MT能力を著しく向上させることができることがわかった。

関連論文リスト

How Well Do Large Reasoning Models Translate? A Comprehensive Evaluation for Multi-Domain Machine Translation [11.5400003750047]
大規模言語モデル (LLM) は汎用機械翻訳において高い性能を示している。 LRMの最近の進歩は、構造化推論が様々な領域にわたる翻訳品質を高めることができるかどうかという疑問を提起している。
論文参考訳（メタデータ） (2025-05-26T13:43:37Z)
Leveraging Domain Knowledge at Inference Time for LLM Translation: Retrieval versus Generation [36.41708236431343]
機械翻訳(MT)において,大規模言語モデル (LLM) がますます採用されている。本研究は,LLMを用いたドメイン適応MTについて,慎重なプロンプト設定により検討する。実演は用語学を一貫して上回り、検索は生成を一貫して上回ります。
論文参考訳（メタデータ） (2025-03-06T22:23:07Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。 FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-11-13T05:40:24Z)
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-10-03T16:15:04Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。性能ギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。 LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。 LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-20T09:02:55Z)
Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文参考訳（メタデータ） (2023-11-06T03:41:57Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
A Paradigm Shift: The Future of Machine Translation Lies with Large Language Models [55.42263732351375]
深層ニューラルネットワークの発展により、機械翻訳は長年にわたって大きく進歩してきた。 GPT-4やChatGPTのような大規模言語モデル(LLM)の出現は、MTドメインに新しいフェーズを導入している。我々は、Long-Document Translation、Stylized Translation、Interactive TranslationなどのシナリオにおけるLLMの利点を強調し、新しいMT方向を強調した。
論文参考訳（メタデータ） (2023-05-02T03:27:27Z)
Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (2023-02-15T18:46:42Z)
Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文参考訳（メタデータ） (2023-01-30T21:17:15Z)
Pre-trained Language Models for Keyphrase Generation: A Thorough Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。 PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文参考訳（メタデータ） (2022-12-20T13:20:21Z)
Multi-Stage Pre-training for Low-Resource Domain Adaptation [24.689862495171408]
現在のアプローチは、ダウンストリームタスクに微調整する前に、ドメイン内のテキストに事前訓練された言語モデル(LM)を直接適用する。 LMの語彙をドメイン固有の用語で拡張することは、さらなる利益をもたらすことを示す。我々は、これらのアプローチをトレーニング済みのRoberta-large LMに漸進的に適用し、IT領域の3つのタスクでかなりのパフォーマンス向上を示す。
論文参考訳（メタデータ） (2020-10-12T17:57:00Z)
A Simple Baseline to Semi-Supervised Domain Adaptation for Machine Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。 NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文参考訳（メタデータ） (2020-01-22T16:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。