論文の概要: Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits
- arxiv url: http://arxiv.org/abs/2502.07193v1
- Date: Tue, 11 Feb 2025 02:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:47.970411
- Title: Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits
- Title(参考訳): 恐らく効率的なRLHFパイプライン:コンテキスト帯域からの統一ビュー
- Authors: Long-Fei Li, Yu-Yang Qian, Peng Zhao, Zhi-Hua Zhou,
- Abstract要約: 本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。
RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。
次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
- 参考スコア(独自算出の注目度): 59.30310692855397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is a widely used approach for aligning Large Language Models (LLMs) with human preferences. While recent advancements have provided valuable insights into various stages and settings of RLHF, a comprehensive theoretical understanding of the entire RLHF pipeline remains lacking. Towards this end, we propose a unified framework for the RLHF pipeline from the view of contextual bandits and provide provable efficiency guarantees. In particular, we decompose the RLHF process into two distinct stages: (post-)training and deployment, exploring both passive and active data collection strategies during the training phase. By employing the Bradley-Terry preference model with a linearly parameterized reward function, we reformulate RLHF as a contextual preference bandit problem. We then develop novel algorithms for each stage, demonstrating significant improvements over existing approaches in both statistical and computational efficiency. Finally, we apply our method to train and deploy Llama-3-8B-Instruct on the Ultrafeedback-binarized dataset, and empirical results confirm the effectiveness of our approach.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために広く使われている手法である。
近年の進歩は、RLHFの様々なステージと設定に関する貴重な洞察を提供しているが、RLHFパイプライン全体の包括的な理論的理解は依然として不足している。
そこで本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案し,有効性を保証する。
特に、RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つの異なる段階に分解し、トレーニングフェーズにおける受動的データ収集戦略とアクティブデータ収集戦略の両方を探索する。
線形パラメータ化報酬関数を持つBradley-Terry選好モデルを用いて、RLHFを文脈的選好帯域問題として再構成する。
そこで我々は,各段階で新しいアルゴリズムを開発し,統計的および計算効率の両面で既存手法よりも大幅に向上したことを示す。
最後に,本手法をUltrafeedback-binarized データセット上でLlama-3-8B-Instruct のトレーニングおよびデプロイに適用し,本手法の有効性を実証的に検証した。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。
また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文 参考訳(メタデータ) (2025-03-28T08:26:41Z) - Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。
我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。
我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文 参考訳(メタデータ) (2025-03-01T15:43:39Z) - Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.76451379043945]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-02T04:40:04Z) - Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion [10.165579735221092]
既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされている。
RLHFuseは、個々のタスクの合成として、従来のRLHFワークフローのビューを分解する。
RLHFuseは既存の最先端システムと比較してトレーニングのスループットを最大3.7倍に向上させる。
論文 参考訳(メタデータ) (2024-09-20T05:15:38Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
本稿では,高次元一般化線形モデルにおけるオンライン推論に対する新しいアプローチを提案する。
提案手法は単一パスモードで動作し,全データセットアクセスや大次元要約統計ストレージを必要とする既存手法とは異なる。
我々の方法論的革新の核心は、動的目的関数に適した適応的降下アルゴリズムと、新しいオンラインデバイアス処理である。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。