論文の概要: Hybrid Preference Optimization for Alignment: Provably Faster Convergence Rates by Combining Offline Preferences with Online Exploration
- arxiv url: http://arxiv.org/abs/2412.10616v1
- Date: Fri, 13 Dec 2024 23:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:06.122643
- Title: Hybrid Preference Optimization for Alignment: Provably Faster Convergence Rates by Combining Offline Preferences with Online Exploration
- Title(参考訳): 配向のハイブリッド選好最適化:オフライン選好とオンライン探索を組み合わせることにより、おそらくより高速な収束率
- Authors: Avinandan Bose, Zhihan Xiong, Aadirupa Saha, Simon Shaolei Du, Maryam Fazel,
- Abstract要約: 大規模言語モデルと人間の嗜好を整合させる新しい手法を提案する。
アクティブなプライオリティクエリコストとリアルタイム実装オーバーヘッドのため、オンライン探索はコストがかかる可能性がある。
優先フィードバックを持つハイブリッドRLHFに対して、証明可能な理論境界を初めて与える。
- 参考スコア(独自算出の注目度): 41.43588778427928
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is currently the leading approach for aligning large language models with human preferences. Typically, these models rely on extensive offline preference datasets for training. However, offline algorithms impose strict concentrability requirements, which are often difficult to satisfy. On the other hand, while online algorithms can avoid the concentrability issue, pure online exploration could be expensive due to the active preference query cost and real-time implementation overhead. In this paper, we propose a novel approach: Hybrid Preference Optimization (HPO) which combines online exploration with existing offline preferences by relaxing the stringent concentrability conditions for offline exploration, as well as significantly improving the sample efficiency for its online counterpart. We give the first provably optimal theoretical bound for Hybrid RLHF with preference feedback, providing sample complexity bounds for policy optimization with matching lower bounds. Our results yield improved sample efficiency of hybrid RLHF over pure offline and online exploration.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデルと人間の好みを合わせるための主要なアプローチである。
通常、これらのモデルはトレーニングのために広範囲のオフライン設定データセットに依存している。
しかし、オフラインアルゴリズムは厳密な集中性要件を課し、しばしば満足するのは難しい。
一方、オンラインアルゴリズムは、集中性の問題を避けることができるが、アクティブな嗜好クエリコストとリアルタイム実装オーバーヘッドのため、純粋なオンライン探索は高価である可能性がある。
本稿では,オンライン探索と既存のオフライン選好を併用したハイブリッド選好最適化(HPO)を提案する。
我々は、優先フィードバックを持つハイブリッドRLHFに対して、初めて証明可能な最適理論境界を与える。
この結果から, 純オフラインおよびオンライン探索によるハイブリッドRLHFの試料効率の向上が得られた。
関連論文リスト
- Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Semi-Offline Reinforcement Learning for Optimized Text Generation [35.1606951874979]
強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。
オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
論文 参考訳(メタデータ) (2023-06-16T09:24:29Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。