論文の概要: Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions
- arxiv url: http://arxiv.org/abs/2401.08088v1
- Date: Tue, 16 Jan 2024 03:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:14:43.065984
- Title: Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions
- Title(参考訳): 翻訳混合命令による大規模言語モデルの文書レベル翻訳の強化
- Authors: Yachao Li, Junhui Li, Jing Jiang and Min Zhang
- Abstract要約: 機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
- 参考スコア(独自算出の注目度): 24.025242477280983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large language models (LLMs) for machine translation are typically
fine-tuned on sentence-level translation instructions and achieve satisfactory
performance at the sentence level. However, when applied to document-level
translation, these models face a significant challenge, particularly when
dealing with documents containing over 512 tokens. This challenge arises from
the issue of sentence-level coverage, where subsequent sentences in the
document remain untranslated. As a result, the document-level translation
capability of LLMs fine-tuned on sentence-level translation instructions is
significantly limited. We conjecture that the primary cause of LLMs' weak
document-level translation performance is the absence of document-to-document
mapping ability. To address the issue, we propose an approach that combines
sentence-level and document-level translation instructions of varying lengths
to fine-tune LLMs. Our proposed translation mixed-instructions enable LLMs
(Llama-2~7B and 13B) to maintain consistent translation performance from the
sentence level to documents containing as many as 2048 tokens. Extensive
experimental results show that the proposed approach significantly enhances the
document-level translation capabilities of LLMs on 10 language pairs,
effectively mitigating the sentence-level coverage issue in document-level
translation. Experimentation on discourse phenomena has demonstrated that our
document-level translation approach significantly improves translation quality,
both in terms of BLEU score and discourse coherence.
- Abstract(参考訳): 機械翻訳のための既存の大言語モデル(llm)は、通常、文レベルの翻訳命令で微調整され、文レベルで十分な性能を達成する。
しかし、文書レベルの翻訳に適用する場合、特に512以上のトークンを含む文書を扱う場合、これらのモデルは重大な課題に直面します。
この課題は、文書中の後続の文が未翻訳のままである文レベルのカバレッジの問題から生じる。
その結果、文レベルの翻訳命令を微調整したLLMの文書レベルの翻訳能力は著しく制限されている。
LLMの弱い文書レベルの翻訳性能の主な原因は文書間マッピング能力の欠如にあると推測する。
この問題に対処するために,様々な長さの文レベルと文書レベルの翻訳命令を組み合わせ,微調整 LLM を提案する。
提案手法により,LLM(Llama-2~7B,13B)は文レベルから最大2048個のトークンを含む文書への一貫した翻訳性能を維持することができる。
実験結果から,提案手法は10言語対におけるLLMの文書レベルの翻訳能力を大幅に向上させ,文書レベルの翻訳における文レベルのカバレッジ問題を効果的に軽減することを示した。
談話現象の実験により,文書レベルの翻訳アプローチは,bleuスコアと談話コヒーレンスの両方の観点から,翻訳品質が著しく向上することが示された。
関連論文リスト
- Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Contextual Refinement of Translations: Large Language Models for
Sentence and Document-Level Post-Editing [14.030354616779327]
大規模言語モデル(LLM)は様々な自然言語処理タスクでかなりの成功を収めている。
彼らはまだ、ニューラルネットワーク翻訳における最先端のパフォーマンスを達成できていない。
ニューラルネットワーク翻訳におけるLLMの応用について検討し,近年のパラメータ効率向上技術について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Leveraging Discourse Rewards for Document-Level Neural Machine
Translation [46.006636555165414]
我々は,2つの確立された談話指標である語彙凝集(LC)とコヒーレンス(COH)を明示的に最適化する学習手法を提案する。
私たちのトレーニングアプローチは、他の競争的アプローチよりも密集的で一貫性のあるドキュメント翻訳を実現することができました。
論文 参考訳(メタデータ) (2020-10-08T02:26:22Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。