論文の概要: Steering Large Language Models for Machine Translation with Finetuning
and In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.13448v1
- Date: Fri, 20 Oct 2023 12:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:05:14.027488
- Title: Steering Large Language Models for Machine Translation with Finetuning
and In-Context Learning
- Title(参考訳): 微調整と文脈学習による機械翻訳のための大規模言語モデルのステアリング
- Authors: Duarte M. Alves, Nuno M. Guerreiro, Jo\~ao Alves, Jos\'e Pombal,
Ricardo Rei, Jos\'e G. C. de Souza, Pierre Colombo and Andr\'e F. T. Martins
- Abstract要約: 大規模言語モデル(LLMs)は機械翻訳(MT)のための有望な道である
それらの効果は、少数ショットの例の選択に大きく依存しており、しばしば過剰発生のために余分な後処理を必要とする。
また,LoRAを用いたアダプタベースファインタニングは従来のファインタニング性能と一致し,トレーニングパラメータの数を50。
- 参考スコア(独自算出の注目度): 19.290966101497844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are a promising avenue for machine translation
(MT). However, current LLM-based MT systems are brittle: their effectiveness
highly depends on the choice of few-shot examples and they often require extra
post-processing due to overgeneration. Alternatives such as finetuning on
translation instructions are computationally expensive and may weaken
in-context learning capabilities, due to overspecialization. In this paper, we
provide a closer look at this problem. We start by showing that adapter-based
finetuning with LoRA matches the performance of traditional finetuning while
reducing the number of training parameters by a factor of 50. This method also
outperforms few-shot prompting and eliminates the need for post-processing or
in-context examples. However, we show that finetuning generally degrades
few-shot performance, hindering adaptation capabilities. Finally, to obtain the
best of both worlds, we propose a simple approach that incorporates few-shot
examples during finetuning. Experiments on 10 language pairs show that our
proposed approach recovers the original few-shot capabilities while keeping the
added benefits of finetuning.
- Abstract(参考訳): 大規模言語モデル(LLMs)は機械翻訳(MT)の道である。
しかし、現在のLLMベースのMTシステムは不安定であり、その有効性は少数例の選択に大きく依存しており、過剰発生による余分な後処理を必要とすることが多い。
翻訳命令の微調整などの代替手段は計算コストが高く、特殊化の過大さによりコンテキスト内学習能力が低下する可能性がある。
本稿では,この問題を詳細に検討する。
まず、LoRAを用いたアダプタベースのファインタニングが従来のファインタニングのパフォーマンスと一致し、トレーニングパラメータの数を50倍に削減することから始める。
このメソッドは、少数ショットのプロンプトよりも優れており、後処理やコンテキスト内例の必要性をなくす。
しかし, 微調整は一般に, 適応能力の阻害を伴い, 数発性能を低下させる。
最後に,両世界の最善を勝ち取るために,微調整中に少数のサンプルを組み込んだ単純なアプローチを提案する。
10個の言語ペアを用いた実験により,提案手法は,微調整の利点を保ちつつ,最初のマイナショット機能を回復することを示した。
関連論文リスト
- Contextual Refinement of Translations: Large Language Models for
Sentence and Document-Level Post-Editing [14.030354616779327]
大規模言語モデル(LLM)は様々な自然言語処理タスクでかなりの成功を収めている。
彼らはまだ、ニューラルネットワーク翻訳における最先端のパフォーマンスを達成できていない。
ニューラルネットワーク翻訳におけるLLMの応用について検討し,近年のパラメータ効率向上技術について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Empirical study of pretrained multilingual language models for zero-shot
cross-lingual generation [25.80773655146495]
言語横断生成は、ある言語における生成タスクにおいて、多言語事前学習言語モデル(mPLM)を微調整し、そのタスクを他の言語で予測するために使用する。
本研究では,mBART や NLLB-200 などの代替 mPLM を検証し,文献における様々なアプローチを統一的に比較する。
論文 参考訳(メタデータ) (2023-10-15T18:58:53Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Understanding Catastrophic Forgetting in Language Models via Implicit
Inference [13.589810236569495]
細調整データ分散におけるタスクの性能向上は、他のタスクにおけるモデル能力の抑制を犠牲にしていることを示す。
我々は、事前訓練された能力を回復できるかどうかを確認するために、共役プロンプティングを提案する。
論文 参考訳(メタデータ) (2023-09-18T19:28:48Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with
Language Models [48.0311578882384]
訓練例やタスク記述を伴う微調整言語モデル(LM)は、最近の数発の学習の成功に欠かせないものと見なされている。
数ショット設定で微調整されたLMは、迅速なエンジニアリングの必要性を著しく低減できることを示す。
論文 参考訳(メタデータ) (2021-06-24T23:38:10Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。