論文の概要: Adapting Large Language Models for Document-Level Machine Translation
- arxiv url: http://arxiv.org/abs/2401.06468v2
- Date: Thu, 15 Feb 2024 09:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 20:51:01.295223
- Title: Adapting Large Language Models for Document-Level Machine Translation
- Title(参考訳): 文書レベル機械翻訳における大規模言語モデルの適用
- Authors: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza
Haffari
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 49.74879186939818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant strides in various natural
language processing (NLP) tasks. Recent research shows that the
moderately-sized LLMs often outperform their larger counterparts after
task-specific fine-tuning. In this work, we delve into the process of adapting
LLMs to specialize in document-level machine translation (DocMT) for a specific
language pair. Firstly, we explore how prompt strategies affect downstream
translation performance. Then, we conduct extensive experiments with two
fine-tuning methods, three LLM backbones, and 18 translation tasks across nine
language pairs. Our findings indicate that in some cases, these specialized
models even surpass GPT-4 in translation performance, while they still
significantly suffer from the off-target translation issue in others, even if
they are exclusively fine-tuned on bilingual parallel documents. Furthermore,
we provide an in-depth analysis of these LLMs tailored for DocMT, exploring
aspects such as translation errors, discourse phenomena, training strategy, the
scaling law of parallel documents, additional evaluation on recent test sets,
and zero-shot crosslingual transfer. Our findings not only shed light on the
strengths and limitations of LLM-based DocMT models but also provide a
foundation for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)を専門とするLLMの適応プロセスについて検討する。
まず,提案手法が下流翻訳性能に与える影響について検討する。
次に、2つの微調整方法、3つのllmバックボーン、18の翻訳タスクを9つの言語ペアで広範囲に実験する。
以上の結果から, 翻訳性能がgpt-4を上回ることすらあるが, 言語間並列文書にのみ微調整されている場合においても, 目標外翻訳問題に苦しむケースもみられた。
さらに, docmt用に調整されたこれらのllmの詳細な分析を行い, 翻訳誤り, 談話現象, 訓練戦略, 並列文書のスケーリング則, 最近のテストセットに対する追加評価, ゼロショット言語間転送などについて検討した。
LLMを用いたDocMTモデルの強度と限界だけでなく,今後の研究の基盤にもなっている。
関連論文リスト
- Self-Augmented In-Context Learning for Unsupervised Word Translation [81.6546357879259]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - On-the-Fly Fusion of Large Language Models and Machine Translation [4.179407478417388]
我々は,同じタスクと入力に対して,LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
論文 参考訳(メタデータ) (2023-11-14T16:49:33Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages,
Modalities, Models and Tasks [13.042411211765387]
本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAスイートを拡張することを目的としている。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Contextual Refinement of Translations: Large Language Models for
Sentence and Document-Level Post-Editing [14.030354616779327]
大規模言語モデル(LLM)は様々な自然言語処理タスクでかなりの成功を収めている。
彼らはまだ、ニューラルネットワーク翻訳における最先端のパフォーマンスを達成できていない。
ニューラルネットワーク翻訳におけるLLMの応用について検討し,近年のパラメータ効率向上技術について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。