論文の概要: MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation
- arxiv url: http://arxiv.org/abs/2403.09522v1
- Date: Thu, 14 Mar 2024 16:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:47:59.960288
- Title: MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation
- Title(参考訳): MT-PATCHER:機械翻訳のための大規模言語モデルから選択的で拡張可能な知識蒸留
- Authors: Jiahuan Li, Shanbo Cheng, Shujian Huang, Jiajun Chen,
- Abstract要約: 機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.65537912700187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) have demonstrated their strong ability in the field of machine translation (MT), yet they suffer from high computational cost and latency. Therefore, transferring translation knowledge from giant LLMs to medium-sized machine translation models is a promising research direction. However, traditional knowledge distillation methods do not take the capability of student and teacher models into consideration, therefore repeatedly teaching student models on the knowledge they have learned, and failing to extend to novel contexts and knowledge. In this paper, we propose a framework called MT-Patcher, which transfers knowledge from LLMs to existing MT models in a selective, comprehensive and proactive manner. Considering the current translation ability of student MT models, we only identify and correct their translation errors, instead of distilling the whole translation from the teacher. Leveraging the strong language abilities of LLMs, we instruct LLM teachers to synthesize diverse contexts and anticipate more potential errors for the student. Experiment results on translating both specific language phenomena and general MT benchmarks demonstrate that finetuning the student MT model on about 10% examples can achieve comparable results to the traditional knowledge distillation method, and synthesized potential errors and diverse contexts further improve translation performances on unseen contexts and words.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳(MT)の分野でその強力な能力を示しているが、高い計算コストとレイテンシに悩まされている。
したがって、巨大なLLMから中規模の機械翻訳モデルへの翻訳知識の移行は、有望な研究方向である。
しかし,従来の知識蒸留法では,学生モデルや教師モデルの能力は考慮されていないため,学習した知識を学生モデルに繰り返し教えることができず,新しい文脈や知識にまで拡張できない。
本稿では, LLM から既存の MT モデルへ, 選択的かつ包括的かつ積極的に知識を伝達する MT-Patcher というフレームワークを提案する。
学生MTモデルの現在の翻訳能力を考えると、教師からの翻訳全体を蒸留するのではなく、翻訳誤りを識別し、修正するのみである。
LLMの強い言語能力を活用して、LLM教師に多様な文脈を合成し、より潜在的な誤りを学生に予測するように指示する。
特定の言語現象と一般MTベンチマークの両方の翻訳実験の結果、約10%の例で学生のMTモデルを微調整することで、従来の知識蒸留法と同等の結果が得られることが示され、潜在的な誤りや多様な文脈が合成され、未知の文脈や単語の翻訳性能がさらに向上することが示されている。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - On-the-Fly Fusion of Large Language Models and Machine Translation [3.718665608549311]
我々は,同じタスクと入力に対して,LLMを用いた機械翻訳モデルのオンザフライアンサンブルを提案する。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
論文 参考訳(メタデータ) (2023-11-14T16:49:33Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Self-Guided Curriculum Learning for Neural Machine Translation [25.870500301724128]
ニューラルマシン翻訳(NMT)モデルの学習を促進するための自己指導型カリキュラム戦略を提案する。
我々のアプローチは、強力なベースライン変換器に対する変換性能を一貫して改善することができる。
論文 参考訳(メタデータ) (2021-05-10T16:12:14Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。