論文の概要: Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice?
- arxiv url: http://arxiv.org/abs/2404.14122v1
- Date: Mon, 22 Apr 2024 12:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:06:38.275476
- Title: Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice?
- Title(参考訳): 翻訳のための微調整された大規模言語モデル: ミスアライズされた言語でノイズの多いデータのタッチは十分か?
- Authors: Dawei Zhu, Pinzhen Chen, Miaoran Zhang, Barry Haddow, Xiaoyu Shen, Dietrich Klakow,
- Abstract要約: 翻訳のための細調整大型言語モデル(LLM)は、32のトレーニングインスタンスで微調整された後、強力な翻訳能力を示す。
方向の選択は重要であり、ターゲット側の英語で微調整されたLLMは、タスクの誤解釈につながる可能性がある。
同様の問題は、特にターゲット言語が十分に表現されている場合に、並列データのターゲット側でノイズが導入されたときに発生する。
- 参考スコア(独自算出の注目度): 33.376648335299116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, success in multilingual machine translation can be attributed to three key factors in training data: large volume, diverse translation directions, and high quality. In the current practice of fine-tuning large language models (LLMs) for translation, we revisit the importance of all these factors. We find that LLMs display strong translation capability after being fine-tuned on as few as 32 training instances, and that fine-tuning on a single translation direction effectively enables LLMs to translate in multiple directions. However, the choice of direction is critical: fine-tuning LLMs with English on the target side can lead to task misinterpretation, which hinders translations into non-English languages. A similar problem arises when noise is introduced into the target side of parallel data, especially when the target language is well-represented in the LLM's pre-training. In contrast, noise in an under-represented language has a less pronounced effect. Our findings suggest that attaining successful alignment hinges on teaching the model to maintain a "superficial" focus, thereby avoiding the learning of erroneous biases beyond translation.
- Abstract(参考訳): 伝統的に、多言語機械翻訳の成功は、大容量、多言語翻訳の方向、高品質の3つのトレーニングデータに起因している。
翻訳のための大規模言語モデル(LLM)を微調整する現在の実践では、これらすべての要素の重要性を再考する。
LLMは、32の訓練インスタンスで微調整された後、強い翻訳能力を示し、単一の翻訳方向の微調整により、LLMが複数の方向の翻訳を効果的に行えることを発見した。
しかし、方向の選択は重要であり、ターゲット側で英語を微調整すると、タスクの誤解釈が生じ、非英語言語への翻訳が妨げられる。
同様の問題は、特にLLMの事前学習においてターゲット言語が十分に表現されている場合に、並列データのターゲット側でノイズが導入されたときに発生する。
対照的に、表現不足言語の雑音は顕著な影響を受けない。
以上の結果から,アライメント・ヒンジの達成は,翻訳以外の誤バイアスの学習を回避し,モデルに「表層的」な焦点を集中させることに焦点が当てられていることが示唆された。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.175795328685986]
機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。
フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
論文 参考訳(メタデータ) (2024-05-30T14:25:56Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。