Fugu-MT 論文翻訳(概要): Adapting Large Language Models for Document-Level Machine Translation

論文の概要: Adapting Large Language Models for Document-Level Machine Translation

arxiv url: http://arxiv.org/abs/2401.06468v2
Date: Thu, 15 Feb 2024 09:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 20:51:01.295223
Title: Adapting Large Language Models for Document-Level Machine Translation
Title（参考訳）: 文書レベル機械翻訳における大規模言語モデルの適用
Authors: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza Haffari
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
参考スコア（独自算出の注目度）: 49.74879186939818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have made significant strides in various natural language processing (NLP) tasks. Recent research shows that the moderately-sized LLMs often outperform their larger counterparts after task-specific fine-tuning. In this work, we delve into the process of adapting LLMs to specialize in document-level machine translation (DocMT) for a specific language pair. Firstly, we explore how prompt strategies affect downstream translation performance. Then, we conduct extensive experiments with two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our findings indicate that in some cases, these specialized models even surpass GPT-4 in translation performance, while they still significantly suffer from the off-target translation issue in others, even if they are exclusively fine-tuned on bilingual parallel documents. Furthermore, we provide an in-depth analysis of these LLMs tailored for DocMT, exploring aspects such as translation errors, discourse phenomena, training strategy, the scaling law of parallel documents, additional evaluation on recent test sets, and zero-shot crosslingual transfer. Our findings not only shed light on the strengths and limitations of LLM-based DocMT models but also provide a foundation for future research.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)を専門とするLLMの適応プロセスについて検討する。まず,提案手法が下流翻訳性能に与える影響について検討する。次に、2つの微調整方法、3つのllmバックボーン、18の翻訳タスクを9つの言語ペアで広範囲に実験する。以上の結果から, 翻訳性能がgpt-4を上回ることすらあるが, 言語間並列文書にのみ微調整されている場合においても, 目標外翻訳問題に苦しむケースもみられた。さらに, docmt用に調整されたこれらのllmの詳細な分析を行い, 翻訳誤り, 談話現象, 訓練戦略, 並列文書のスケーリング則, 最近のテストセットに対する追加評価, ゼロショット言語間転送などについて検討した。 LLMを用いたDocMTモデルの強度と限界だけでなく,今後の研究の基盤にもなっている。

関連論文リスト

Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文参考訳（メタデータ） (2025-04-02T17:26:40Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。 2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文参考訳（メタデータ） (2024-08-23T00:59:38Z)
TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。 WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-06-12T17:21:21Z)
A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。 SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-04-17T11:52:47Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)
A Novel Paradigm Boosting Translation Capabilities of Large Language Models [11.537249547487045]
本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。 Llama2モデルを用いた実験結果,特に中国語-Llama2を用いて,LLMの翻訳能力の向上を実証した。
論文参考訳（メタデータ） (2024-03-18T02:53:49Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。