論文の概要: Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process
- arxiv url: http://arxiv.org/abs/2405.11870v1
- Date: Mon, 20 May 2024 08:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:44:14.796936
- Title: Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process
- Title(参考訳): 直感的な微調整:SFTとRLHFを単一プロセスに統合する
- Authors: Ermo Hua, Biqing Qi, Kaiyan Zhang, Yue Yu, Ning Ding, Xingtai Lv, Kai Tian, Bowen Zhou,
- Abstract要約: Supervised Fine-Tuning (SFT) と Reinforcement Learning from Human Feedback (RLHF) は、事前トレーニング後の言語モデル(LM)の機能を強化するための2つのプロセスである。
Intuitive Fine-tuning (IFT)を導入し、SFTとRLHFを単一のプロセスに統合する。
- 参考スコア(独自算出の注目度): 26.196705232699884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) are two fundamental processes for enhancing the capabilities of Language Models (LMs) post pre-training, aligning them better with human preferences. Although SFT advances in training efficiency, RLHF delivers better alignment, thus they are often combined. However, common practices simply apply them sequentially without unifying their optimization targets, resulting in a trade-off between fitting different objectives, and ignoring the opportunities to bridge the paradigm gap and take the strength from both. To obtain a unified understanding, we interpret SFT and RLHF using two sub-processes -- Preference Estimation and Transition Optimization -- defined at token level within the Markov Decision Process (MDP) framework. This modeling shows that SFT is only a specialized case of RLHF with inferior estimation and optimization. RLHF evaluates the quality of model's entire generated answer, whereas SFT only scores predicted tokens based on preceding tokens from target answers. Therefore, SFT overestimates the ability of model, leading to inferior optimization. Building on this view, we introduce Intuitive Fine-tuning (IFT) to integrate SFT and RLHF into a single process. IFT captures LMs' intuitive sense of the entire answers through a temporal residual connection, while using a single policy and the same volume of non-preference-labeled data as SFT. Our experiments show that IFT performs comparably or even superiorly to sequential recipes of SFT and some typical alignment methods across several tasks, particularly those requires generation, reasoning, and fact-following abilities. An explainable Frozen Lake game further validates the effectiveness of IFT.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) と Reinforcement Learning from Human Feedback (RLHF) は、事前トレーニング後の言語モデル(LM)の機能を強化するための2つの基本的なプロセスである。
SFTは訓練効率が向上するが、RLHFはより優れたアライメントを提供するため、しばしば組み合わせられる。
しかしながら、一般的なプラクティスは、最適化目標を統一することなく、それらを順次適用することで、異なる目的に合わせることと、パラダイムギャップを埋める機会を無視して、両方から強みを取るというトレードオフをもたらす。
統一的な理解を得るために,Markov Decision Process (MDP) フレームワーク内のトークンレベルで定義された2つのサブプロセスであるpreference Estimation と transition Optimization を用いて,SFT と RLHF を解釈する。
このモデリングは、SFTが劣等な推定と最適化を伴うRLHFの特殊なケースであることを示している。
RLHFは、モデル全体の回答の質を評価する一方、SFTは、ターゲットの回答から前のトークンに基づいて予測トークンをスコアする。
したがって、SFTはモデルの性能を過大評価し、劣等な最適化をもたらす。
この観点から,SFTとRLHFを単一のプロセスに統合する直観的ファインチューニング(IFT)を導入する。
IFTは、単一ポリシーとSFTと同量の非参照ラベル付きデータを用いて、LMの時間的残差接続を通して全回答の直感的な感覚を捉えている。
我々の実験は、IFTがSFTのシーケンシャルなレシピやいくつかのタスク、特に生成、推論、ファクトフォロー能力を必要とするいくつかの典型的なアライメント手法と相容れないか、あるいはそれ以上に優れていることを示した。
説明可能な凍結湖ゲームはIFTの有効性をさらに検証する。
関連論文リスト
- PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。
TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - HFT: Half Fine-Tuning for Large Language Models [42.60438623804577]
1つ以上の微調整フェーズを持つ大規模言語モデル(LLM)は、様々な機能をアンロックするために必要なステップとなっている。
本稿では,部分的パラメータを定期的にリセットすることで,LLMが元の知識の一部を復元できることを見出した。
本稿では,LLM 用ハーフファインチューニング (HFT) をフルファインチューニング (FFT) の代替として導入し,忘れる問題を緩和する。
論文 参考訳(メタデータ) (2024-04-29T07:07:58Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Federated Bayesian Optimization via Thompson Sampling [33.087439644066876]
本稿では,FBOとFLの主な課題を原則的に克服するフェデレートトンプソンサンプリング(FTS)を提案する。
通信効率, 計算効率, 実用性能の観点から, FTS の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-10-20T09:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。