論文の概要: Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation
- arxiv url: http://arxiv.org/abs/2410.13944v1
- Date: Thu, 17 Oct 2024 18:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:51.206766
- Title: Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation
- Title(参考訳): Rationale蒸留によるLLM翻訳スキルの向上
- Authors: Junhong Wu, Yang Zhao, Yangyifan Xu, Bing Liu, Chengqing Zong,
- Abstract要約: 大規模言語モデル(LLM)は多くのNLPタスクにまたがって印象的な結果を得たが、それでも機械翻訳の難しさに悩まされている。
本稿では,RaDis (Rationale Distillation) と呼ばれる新しい手法を提案する。
RaDisはLLMの強力な生成能力を活用して、データトレーニングの合理性を作り、それを“再生”して、忘れることを防ぐ。
- 参考スコア(独自算出の注目度): 31.733890798723085
- License:
- Abstract: Large Language Models (LLMs) have achieved impressive results across numerous NLP tasks but still encounter difficulties in machine translation. Traditional methods to improve translation have typically involved fine-tuning LLMs using parallel corpora. However, vanilla fine-tuning often leads to catastrophic forgetting of the instruction-following capabilities and alignment with human preferences, compromising their broad general abilities and introducing potential security risks. These abilities, which are developed using proprietary and unavailable training data, make existing continual instruction tuning methods ineffective. To overcome this issue, we propose a novel approach called RaDis (Rationale Distillation). RaDis harnesses the strong generative capabilities of LLMs to create rationales for training data, which are then "replayed" to prevent forgetting. These rationales encapsulate general knowledge and safety principles, acting as self-distillation targets to regulate the training process. By jointly training on both reference translations and self-generated rationales, the model can learn new translation skills while preserving its overall general abilities. Extensive experiments demonstrate that our method enhances machine translation performance while maintaining the broader capabilities of LLMs across other tasks. This work presents a pathway for creating more versatile LLMs that excel in specialized tasks without compromising generality and safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのNLPタスクにまたがって印象的な結果を得たが、それでも機械翻訳の難しさに悩まされている。
翻訳を改善する従来の手法は、典型的には並列コーパスを使用して微調整のLLMを伴っていた。
しかしながら、バニラの微調整は、しばしば、命令追従能力の破滅的な忘れと人間の嗜好との整合を招き、その幅広い一般的な能力を妥協し、潜在的なセキュリティリスクをもたらす。
これらの能力は、プロプライエタリで不利用可能なトレーニングデータを用いて開発され、既存の連続的な指導訓練手法を効果的にしない。
そこで本研究では,RaDis (Rationale Distillation) という新しい手法を提案する。
RaDisはLLMの強力な生成能力を活用して、データトレーニングの合理性を作り、それを“再生”して、忘れることを防ぐ。
これらの理論的根拠は一般的な知識と安全原則をカプセル化し、訓練プロセスを制御するための自己蒸留の標的として機能する。
参照翻訳と自己生成的合理性の両方を共同でトレーニングすることにより、モデルはその全体的な総合能力を保ちながら、新しい翻訳スキルを学ぶことができる。
大規模な実験により,本手法は他のタスクにまたがるLLMの幅広い能力を維持しつつ,機械翻訳性能を向上させることが実証された。
本研究は, 汎用性と安全性を損なうことなく, 専門的なタスクに優れた汎用的なLLMを作成するための経路を示す。
関連論文リスト
- MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Orthogonal Subspace Learning for Language Model Continual Learning [45.35861158925975]
O-LoRAは、言語モデルにおける継続学習のためのシンプルで効率的なアプローチである。
提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。
論文 参考訳(メタデータ) (2023-10-22T02:23:44Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Pre-training Text-to-Text Transformers for Concept-centric Common Sense [48.11844351407072]
本稿では,概念中心のコモンセンス知識を用いた事前学習型言語モデルの拡張を目的とした概念認識型言語モデル(CALM)を提案する。
我々は,CALMが外部知識グラフに頼ることなく,事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことができることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。