論文の概要: Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits
- arxiv url: http://arxiv.org/abs/2502.07193v1
- Date: Tue, 11 Feb 2025 02:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:06.352617
- Title: Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits
- Title(参考訳): 恐らく効率的なRLHFパイプライン:コンテキスト帯域からの統一ビュー
- Authors: Long-Fei Li, Yu-Yang Qian, Peng Zhao, Zhi-Hua Zhou,
- Abstract要約: 本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。
RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。
次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
- 参考スコア(独自算出の注目度): 59.30310692855397
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a widely used approach for aligning Large Language Models (LLMs) with human preferences. While recent advancements have provided valuable insights into various stages and settings of RLHF, a comprehensive theoretical understanding of the entire RLHF pipeline remains lacking. Towards this end, we propose a unified framework for the RLHF pipeline from the view of contextual bandits and provide provable efficiency guarantees. In particular, we decompose the RLHF process into two distinct stages: (post-)training and deployment, exploring both passive and active data collection strategies during the training phase. By employing the Bradley-Terry preference model with a linearly parameterized reward function, we reformulate RLHF as a contextual preference bandit problem. We then develop novel algorithms for each stage, demonstrating significant improvements over existing approaches in both statistical and computational efficiency. Finally, we apply our method to train and deploy Llama-3-8B-Instruct on the Ultrafeedback-binarized dataset, and empirical results confirm the effectiveness of our approach.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために広く使われている手法である。
近年の進歩は、RLHFの様々なステージと設定に関する貴重な洞察を提供しているが、RLHFパイプライン全体の包括的な理論的理解は依然として不足している。
そこで本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案し,有効性を保証する。
特に、RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つの異なる段階に分解し、トレーニングフェーズにおける受動的データ収集戦略とアクティブデータ収集戦略の両方を探索する。
線形パラメータ化報酬関数を持つBradley-Terry選好モデルを用いて、RLHFを文脈的選好帯域問題として再構成する。
そこで我々は,各段階で新しいアルゴリズムを開発し,統計的および計算効率の両面で既存手法よりも大幅に向上したことを示す。
最後に,本手法をUltrafeedback-binarized データセット上でLlama-3-8B-Instruct のトレーニングおよびデプロイに適用し,本手法の有効性を実証的に検証した。
関連論文リスト
- Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.76451379043945]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-02T04:40:04Z) - Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment [33.5805074836187]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるのに非常に効果的であることが証明されている。
この制限は、RLHFが特定のトークンを強化または抑制すべきかどうかについての認識の欠如に起因している。
本稿では,様々なタスクに頑健に適用可能な適応的メッセージワイドRLHF'法を提案する。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion [10.165579735221092]
既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされている。
RLHFuseは、個々のタスクの合成として、従来のRLHFワークフローのビューを分解する。
RLHFuseは既存の最先端システムと比較してトレーニングのスループットを最大3.7倍に向上させる。
論文 参考訳(メタデータ) (2024-09-20T05:15:38Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。