Fugu-MT 論文翻訳(概要): Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning

論文の概要: Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning

arxiv url: http://arxiv.org/abs/2310.13448v1
Date: Fri, 20 Oct 2023 12:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 23:05:14.027488
Title: Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning
Title（参考訳）: 微調整と文脈学習による機械翻訳のための大規模言語モデルのステアリング
Authors: Duarte M. Alves, Nuno M. Guerreiro, Jo\~ao Alves, Jos\'e Pombal, Ricardo Rei, Jos\'e G. C. de Souza, Pierre Colombo and Andr\'e F. T. Martins
Abstract要約: 大規模言語モデル(LLMs)は機械翻訳(MT)のための有望な道であるそれらの効果は、少数ショットの例の選択に大きく依存しており、しばしば過剰発生のために余分な後処理を必要とする。また,LoRAを用いたアダプタベースファインタニングは従来のファインタニング性能と一致し,トレーニングパラメータの数を50。
参考スコア（独自算出の注目度）: 19.290966101497844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are a promising avenue for machine translation (MT). However, current LLM-based MT systems are brittle: their effectiveness highly depends on the choice of few-shot examples and they often require extra post-processing due to overgeneration. Alternatives such as finetuning on translation instructions are computationally expensive and may weaken in-context learning capabilities, due to overspecialization. In this paper, we provide a closer look at this problem. We start by showing that adapter-based finetuning with LoRA matches the performance of traditional finetuning while reducing the number of training parameters by a factor of 50. This method also outperforms few-shot prompting and eliminates the need for post-processing or in-context examples. However, we show that finetuning generally degrades few-shot performance, hindering adaptation capabilities. Finally, to obtain the best of both worlds, we propose a simple approach that incorporates few-shot examples during finetuning. Experiments on 10 language pairs show that our proposed approach recovers the original few-shot capabilities while keeping the added benefits of finetuning.
Abstract（参考訳）: 大規模言語モデル(LLMs)は機械翻訳(MT)の道である。しかし、現在のLLMベースのMTシステムは不安定であり、その有効性は少数例の選択に大きく依存しており、過剰発生による余分な後処理を必要とすることが多い。翻訳命令の微調整などの代替手段は計算コストが高く、特殊化の過大さによりコンテキスト内学習能力が低下する可能性がある。本稿では,この問題を詳細に検討する。まず、LoRAを用いたアダプタベースのファインタニングが従来のファインタニングのパフォーマンスと一致し、トレーニングパラメータの数を50倍に削減することから始める。このメソッドは、少数ショットのプロンプトよりも優れており、後処理やコンテキスト内例の必要性をなくす。しかし, 微調整は一般に, 適応能力の阻害を伴い, 数発性能を低下させる。最後に,両世界の最善を勝ち取るために,微調整中に少数のサンプルを組み込んだ単純なアプローチを提案する。 10個の言語ペアを用いた実験により,提案手法は,微調整の利点を保ちつつ,最初のマイナショット機能を回復することを示した。

関連論文リスト

Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文参考訳（メタデータ） (2024-10-22T17:45:47Z)
A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。本稿では,バックプロパゲーション(層レベルでの)のコスト削減に向けた先駆的な取り組みを提案する。我々は、よく知られたLMとデータセットにまたがる広範な実験を行う。
論文参考訳（メタデータ） (2024-06-17T17:13:08Z)
TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。 WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-06-12T17:21:21Z)
Guardrail Baselines for Unlearning in LLMs [33.86316928349476]
ファインタニングは、大きな言語モデルから'未学習'の概念への有望なアプローチである。ガードレールをベースとしたプロンプトやフィルタリングなどの手法が,ファインタニングに匹敵する未学習結果が得られることを示す。
論文参考訳（メタデータ） (2024-03-05T21:19:06Z)
Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文参考訳（メタデータ） (2023-10-23T12:22:15Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文参考訳（メタデータ） (2023-07-10T08:15:40Z)
Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models [48.0311578882384]
訓練例やタスク記述を伴う微調整言語モデル(LM)は、最近の数発の学習の成功に欠かせないものと見なされている。数ショット設定で微調整されたLMは、迅速なエンジニアリングの必要性を著しく低減できることを示す。
論文参考訳（メタデータ） (2021-06-24T23:38:10Z)
Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文参考訳（メタデータ） (2020-05-01T02:01:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。