論文の概要: Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning
- arxiv url: http://arxiv.org/abs/2410.02631v1
- Date: Thu, 3 Oct 2024 16:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:02:21.097699
- Title: Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning
- Title(参考訳): マルチドメイン翻訳のための大規模言語モデル:ベンチマークとDomain CoTファインタニング
- Authors: Tianxiang Hu, Pei Zhang, Baosong Yang, Jun Xie, Derek F. Wong, Rui Wang,
- Abstract要約: 大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 55.107329995417786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving consistent high-quality machine translation (MT) across diverse domains remains a significant challenge, primarily due to the limited and imbalanced parallel training data available in various domains. While large language models (LLMs) have demonstrated impressive general understanding and generation abilities, their potential in multi-domain MT is under-explored. We establish a comprehensive benchmark for multi-domain translation, featuring 25 German$\Leftrightarrow$English and 22 Chinese$\Leftrightarrow$English test sets respectively covering 15 domains. Our evaluation of prominent LLMs reveals a discernible performance gap against traditional MT systems, highlighting domain overfitting and catastrophic forgetting issues after fine-tuning on domain-limited corpora. To mitigate this, we propose a domain Chain of Thought (CoT) fine-tuning technique that utilizes the intrinsic multi-domain intelligence of LLMs to improve translation performance. This method inspires the LLM to perceive domain information from the source text, which then serves as a helpful hint to guide the translation process. Despite being trained on a small dataset of four domains, our CoT fine-tune approach achieves notable enhancements in translation accuracy and domain robustness than traditional fine-tuning, as evidenced by an average 1.53 BLEU score increase in over 20 German$\rightarrow$English distinct out-of-domain tests.
- Abstract(参考訳): さまざまなドメインにまたがる一貫した高品質な機械翻訳(MT)を実現することは、主にさまざまなドメインで利用可能な、限定的で不均衡な並列トレーニングデータのために、大きな課題である。
大規模言語モデル(LLM)は、目覚ましい一般理解と生成能力を示してきたが、マルチドメインMTの潜在能力は未探索である。
我々は、25のドイツ語$\Leftrightarrow$ Englishと22の中国語$\Leftrightarrow$ Englishがそれぞれ15のドメインをカバーする、多ドメイン翻訳のための包括的なベンチマークを確立した。
筆者らは,従来のMTシステムに対して,ドメイン制限コーパスの微調整後,ドメイン過度な適合と破滅的な忘れの問題を強調し,顕著な性能ギャップを明らかにした。
そこで本研究では,LLMの本質的なマルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
この方法により、LLMはソーステキストからドメイン情報を知覚し、翻訳プロセスのガイドとなるヒントとなる。
4つのドメインの小さなデータセットでトレーニングされているにもかかわらず、私たちのCoTファインチューンアプローチは、平均1.53 BLEUスコアが20以上のドイツ語$\rightarrow$ Englishのドメイン外テストで増加していることが証明されているように、従来の微調整よりも翻訳精度とドメインの堅牢性が顕著に向上している。
関連論文リスト
- Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Domain Adaptation for Arabic Machine Translation: The Case of Financial
Texts [0.7673339435080445]
金融分野でアラビア英語(AR-EN)翻訳のための並列コーパスを開発する。
我々は、ChatGPT-3.5 Turboを含むいくつかのNMTおよびLarge Languageモデルを微調整する。
ChatGPT翻訳の品質は, 自動評価および人的評価に基づく他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-22T13:37:19Z) - GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image
Translation [103.54337984566877]
GP-UNIT(Generative Prior-Guided Unsupervised Image-to-image Translation)を新たに導入する。
GP-UNITは、近接ドメインと遠方のドメインの間で有効な翻訳を行うことができる。
我々は,最先端の翻訳モデルよりも頑健で高品質で多種多様な翻訳におけるGP-UNITの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-07T17:59:22Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。