論文の概要: Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice?
- arxiv url: http://arxiv.org/abs/2404.14122v1
- Date: Mon, 22 Apr 2024 12:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:06:38.275476
- Title: Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice?
- Title(参考訳): 翻訳のための微調整された大規模言語モデル: ミスアライズされた言語でノイズの多いデータのタッチは十分か?
- Authors: Dawei Zhu, Pinzhen Chen, Miaoran Zhang, Barry Haddow, Xiaoyu Shen, Dietrich Klakow,
- Abstract要約: 翻訳のための細調整大型言語モデル(LLM)は、32のトレーニングインスタンスで微調整された後、強力な翻訳能力を示す。
方向の選択は重要であり、ターゲット側の英語で微調整されたLLMは、タスクの誤解釈につながる可能性がある。
同様の問題は、特にターゲット言語が十分に表現されている場合に、並列データのターゲット側でノイズが導入されたときに発生する。
- 参考スコア(独自算出の注目度): 33.376648335299116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, success in multilingual machine translation can be attributed to three key factors in training data: large volume, diverse translation directions, and high quality. In the current practice of fine-tuning large language models (LLMs) for translation, we revisit the importance of all these factors. We find that LLMs display strong translation capability after being fine-tuned on as few as 32 training instances, and that fine-tuning on a single translation direction effectively enables LLMs to translate in multiple directions. However, the choice of direction is critical: fine-tuning LLMs with English on the target side can lead to task misinterpretation, which hinders translations into non-English languages. A similar problem arises when noise is introduced into the target side of parallel data, especially when the target language is well-represented in the LLM's pre-training. In contrast, noise in an under-represented language has a less pronounced effect. Our findings suggest that attaining successful alignment hinges on teaching the model to maintain a "superficial" focus, thereby avoiding the learning of erroneous biases beyond translation.
- Abstract(参考訳): 伝統的に、多言語機械翻訳の成功は、大容量、多言語翻訳の方向、高品質の3つのトレーニングデータに起因している。
翻訳のための大規模言語モデル(LLM)を微調整する現在の実践では、これらすべての要素の重要性を再考する。
LLMは、32の訓練インスタンスで微調整された後、強い翻訳能力を示し、単一の翻訳方向の微調整により、LLMが複数の方向の翻訳を効果的に行えることを発見した。
しかし、方向の選択は重要であり、ターゲット側で英語を微調整すると、タスクの誤解釈が生じ、非英語言語への翻訳が妨げられる。
同様の問題は、特にLLMの事前学習においてターゲット言語が十分に表現されている場合に、並列データのターゲット側でノイズが導入されたときに発生する。
対照的に、表現不足言語の雑音は顕著な影響を受けない。
以上の結果から,アライメント・ヒンジの達成は,翻訳以外の誤バイアスの学習を回避し,モデルに「表層的」な焦点を集中させることに焦点が当てられていることが示唆された。
関連論文リスト
- Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [113.5214494700372]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Empowering Cross-lingual Abilities of Instruction-tuned Large Language
Models by Translation-following demonstrations [0.8133739801185272]
We propose CrossAlpaca, a It-LLM with cross-lingual instruction-following and translation-following demonstrations。
我々のモデルは、6つの異なる言語でテストされ、単言語データで調整された It-LLM よりも優れています。
論文 参考訳(メタデータ) (2023-08-27T19:22:12Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language
Models [91.55398541853785]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。