論文の概要: Distributionally Robust Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2503.00539v1
- Date: Sat, 01 Mar 2025 15:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:39.762506
- Title: Distributionally Robust Reinforcement Learning with Human Feedback
- Title(参考訳): フィードバックを用いたロバスト強化学習
- Authors: Debmalya Mandal, Paulius Sasnauskas, Goran Radanovic,
- Abstract要約: 大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。
我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。
我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
- 参考スコア(独自算出の注目度): 13.509499718691016
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has evolved to be one of the main methods for fine-tuning large language models (LLMs). However, existing RLHF methods are non-robust, and their performance deteriorates if the downstream task differs significantly from the preference dataset used in fine-tuning. In order to mitigate this problem, we introduce a distributionally robust RLHF for fine-tuning LLMs. In particular, our goal is to ensure that a fine-tuned model retains its performance even when the distribution of prompts significantly differs from the distribution encountered during fine-tuning. We formulate distributionally robust optimization (DRO) version of two popular fine-tuning methods -- (1) reward-based RLHF and (2) reward-free DPO (direct preference optimization). We propose a minibatch gradient descent based algorithms for both of them, and theoretically prove convergence guarantees for the algorithms. Subsequently, we evaluate our algorithms on an out-of-distribution (OOD) task by first training the model on the Unified-Feedback dataset and evaluating its performance on two different datasets. The experimental results show that our robust training improves the accuracy of the learned reward models on average, and markedly on some tasks, such as reasoning. Furthermore, we show that the robust versions of policy optimization methods, similarly improve performance on OOD tasks.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を微調整するための主要な手法の1つに進化してきた。
しかし、既存のRLHF法はロバストではなく、ダウンストリームタスクが微調整で使用する好みデータセットと大きく異なる場合、その性能は劣化する。
この問題を軽減するために, 微調整LDMのための分散ロバストなRLHFを導入する。
特に、微調整時に発生する分布とプロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することが目的である。
我々は,(1)報酬ベースRLHFと(2)報酬なしDPO(direct preference optimization)という2つの一般的な微調整手法の分布ロバスト最適化(DRO)バージョンを定式化する。
両アルゴリズムに対して,ミニバッチ勾配勾配に基づくアルゴリズムを提案し,アルゴリズムの収束保証を理論的に証明する。
その後、Unified-Feedbackデータセット上でモデルをトレーニングし、2つの異なるデータセットでその性能を評価することにより、アウト・オブ・ディストリビューション(OOD)タスクにおけるアルゴリズムの評価を行った。
実験結果から,学習した報酬モデルの精度が平均的に向上し,推論などのタスクにおいて顕著に向上することが示唆された。
さらに、ポリシー最適化手法の堅牢なバージョンは、同様にOODタスクの性能を改善していることを示す。
関連論文リスト
- Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。