Fugu-MT 論文翻訳(概要): Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning

論文の概要: Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning

arxiv url: http://arxiv.org/abs/2410.15483v1
Date: Sun, 20 Oct 2024 19:38:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.136236
Title: Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning
Title（参考訳）: LLM監督による微調整と選好学習の緩和
Authors: Heshan Fernando, Han Shen, Parikshit Ram, Yi Zhou, Horst Samulowitz, Nathalie Baracaldo, Tianyi Chen,
Abstract要約: SFTとRLHF/DPOのトレードオフの観点から,逐次後トレーニングが準最適であることを示す。本稿では,理論収束保証と逐次後学習フレームワークの性能を実証的に向上した実践的後学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 40.416535800947074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training of pre-trained LLMs, which typically consists of the supervised fine-tuning (SFT) stage and the preference learning (RLHF or DPO) stage, is crucial to effective and safe LLM applications. The widely adopted approach in post-training popular open-source LLMs is to sequentially perform SFT and RLHF/DPO. However, sequential training is sub-optimal in terms of SFT and RLHF/DPO trade-off: the LLM gradually forgets about the first stage's training when undergoing the second stage's training. We theoretically prove the sub-optimality of sequential post-training. Furthermore, we propose a practical joint post-training framework with theoretical convergence guarantees and empirically outperforms sequential post-training framework, while having similar computational cost. Our code is available at https://github.com/heshandevaka/XRIGHT.
Abstract（参考訳）: 教師付き微調整(SFT)段階と選好学習(RLHFまたはDPO)段階からなるプレトレーニング済みLLMのポストトレーニングは、効果的で安全なLLM応用に不可欠である。オープンソースLLMのポストトレーニングにおいて広く採用されているアプローチは、SFTとRLHF/DPOのシーケンシャルな実行である。しかし、シーケンシャルトレーニングはSFTとRLHF/DPOのトレードオフの観点からは準最適であり、LLMは第2ステージのトレーニングを行う際の第1ステージのトレーニングを徐々に忘れている。シーケンシャルなポストトレーニングの準最適性を理論的に証明する。さらに, 理論的収束を保証するとともに, 同様の計算コストを伴いながら, 逐次的後学習フレームワークの性能を実証的に向上する, 実用的な後学習フレームワークを提案する。私たちのコードはhttps://github.com/heshandevaka/XRIGHTで利用可能です。

関連論文リスト

How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language Models [35.44133682914159]
LLM(Large Language Models)のバージョン更新のためのトレーニングパラダイムには、スクラッチ(PTFS)からの事前トレーニング(Continuousal Pre-training)やCPT(Continuous Pre-training)などがある。予備実験では、PTFSはトレーニング前のパフォーマンスが向上し、CPTはトレーニングコストが低下することを示した。我々のパラダイムは,LLMを最大学習率で事前学習する1つの主要なパスと,新たに追加されたトレーニングデータでLLMを更新する複数の分岐パスから構成される。
論文参考訳（メタデータ） (2024-10-05T10:15:48Z)
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。 LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文参考訳（メタデータ） (2024-06-25T20:11:37Z)
ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文参考訳（メタデータ） (2024-06-20T08:04:07Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。 In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。 ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T17:14:34Z)
EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。 Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文参考訳（メタデータ） (2023-12-08T09:31:50Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。