論文の概要: Iterative Label Refinement Matters More than Preference Optimization under Weak Supervision
- arxiv url: http://arxiv.org/abs/2501.07886v1
- Date: Tue, 14 Jan 2025 06:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:42.016934
- Title: Iterative Label Refinement Matters More than Preference Optimization under Weak Supervision
- Title(参考訳): 繰り返しラベルリファインメントは、弱スーパービジョン下での優先最適化よりも重要である
- Authors: Yaowen Ye, Cassidy Laidlaw, Jacob Steinhardt,
- Abstract要約: 我々は、小さな言語モデルと人間を用いて、信頼できないデモンストレーションと比較フィードバックをシミュレートする。
信頼性の低い監視が存在する場合、SFTは依然として有効性を維持するが、DPO(共通RLHFアルゴリズム)はSFT以外のモデルの改善に失敗する。
以上の結果から,LMは人間の監督が信頼できない複雑なタスクに使用されるため,RLHFはもはや人間の比較フィードバックの最良の利用ではない可能性が示唆された。
- 参考スコア(独自算出の注目度): 34.594109869213014
- License:
- Abstract: Language model (LM) post-training relies on two stages of human supervision: task demonstrations for supervised finetuning (SFT), followed by preference comparisons for reinforcement learning from human feedback (RLHF). As LMs become more capable, the tasks they are given become harder to supervise. Will post-training remain effective under unreliable supervision? To test this, we simulate unreliable demonstrations and comparison feedback using small LMs and time-constrained humans. We find that in the presence of unreliable supervision, SFT still retains some effectiveness, but DPO (a common RLHF algorithm) fails to improve the model beyond SFT. To address this, we propose iterative label refinement (ILR) as an alternative to RLHF. ILR improves the SFT data by using comparison feedback to decide whether human demonstrations should be replaced by model-generated alternatives, then retrains the model via SFT on the updated data. SFT+ILR outperforms SFT+DPO on several tasks with unreliable supervision (math, coding, and safe instruction-following). Our findings suggest that as LMs are used for complex tasks where human supervision is unreliable, RLHF may no longer be the best use of human comparison feedback; instead, it is better to direct feedback towards improving the training data rather than continually training the model. Our code and data are available at https://github.com/helloelwin/iterative-label-refinement.
- Abstract(参考訳): 言語モデル(LM)は、人間の監督の2つの段階に依存している: 教師付き微調整(SFT)のためのタスクデモと、人間からのフィードバック(RLHF)からの強化学習のための好みの比較である。
LMがより能力を持つようになると、与えられたタスクは監視しにくくなります。
ポストトレーニングは信頼性の低い監督の下で有効か?
これをテストするために、小型のLMと時間制約のある人間を用いて信頼性の低い実演と比較フィードバックをシミュレートした。
信頼性の低い監視が存在する場合、SFTは依然として有効性を維持するが、DPO(共通RLHFアルゴリズム)はSFT以外のモデルの改善に失敗する。
そこで本研究では,RLHFの代替として反復ラベルリファインメント(ILR)を提案する。
ILRは、比較フィードバックを使用して、人間のデモをモデル生成代替品に置き換えるべきかどうかを判断し、更新されたデータ上でSFTを介してモデルを再訓練する。
SFT+ILRは、信頼性の低いいくつかのタスク(マス、コーディング、安全な命令フォロー)において、SFT+DPOを上回っている。
以上の結果から,LMは人間の監督が信頼できない複雑なタスクに使用されるため,RLHFはもはや人間の比較フィードバックのベストユースではない可能性が示唆された。
私たちのコードとデータはhttps://github.com/helloelwin/iterative-label-refinement.comで公開されています。
関連論文リスト
- ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to
RLHF [19.43122743768123]
提案するSteerLMは,ユーザによる推論時の応答制御を支援する教師付き微調整手法である。
SteerLM条件は、明示的に定義された多次元の属性セットに対応するために応答し、それによって、有用な高品質のレスポンスを生成することができるステアブルAIを増強する。
論文 参考訳(メタデータ) (2023-10-09T02:11:21Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。