Fugu-MT 論文翻訳(概要): Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization

論文の概要: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization

arxiv url: http://arxiv.org/abs/2402.10342v1
Date: Thu, 15 Feb 2024 22:11:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 18:04:24.023697
Title: Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization
Title（参考訳）: RLHFにおける探索駆動政策最適化:効率的なデータ利用に関する理論的考察
Authors: Yihan Du, Anna Winnicki, Gal Dalal, Shie Mannor, R. Srikant
Abstract要約: ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。重要な特徴は、報酬関数パラメーターを推論するために用いられる軌道レベルの楕円ポテンシャル分析技術である。
参考スコア（独自算出の注目度）: 60.66162263756611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has achieved impressive empirical successes while relying on a small amount of human feedback. However, there is limited theoretical justification for this phenomenon. Additionally, most recent studies focus on value-based algorithms despite the recent empirical successes of policy-based algorithms. In this work, we consider an RLHF algorithm based on policy optimization (PO-RLHF). The algorithm is based on the popular Policy Cover-Policy Gradient (PC-PG) algorithm, which assumes knowledge of the reward function. In PO-RLHF, knowledge of the reward function is not assumed and the algorithm relies on trajectory-based comparison feedback to infer the reward function. We provide performance bounds for PO-RLHF with low query complexity, which provides insight into why a small amount of human feedback may be sufficient to get good performance with RLHF. A key novelty is our trajectory-level elliptical potential analysis technique used to infer reward function parameters when comparison queries rather than reward observations are used. We provide and analyze algorithms in two settings: linear and neural function approximation, PG-RLHF and NN-PG-RLHF, respectively.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF)は、少数の人間のフィードバックを頼りながら、印象的な経験的成功を達成した。しかし、この現象の理論的正当性は限られている。さらに、近年の研究では、政策に基づくアルゴリズムの実証的な成功にもかかわらず、価値ベースのアルゴリズムに焦点を当てている。本稿ではポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムについて考察する。このアルゴリズムは、報酬関数の知識を前提とした一般的なポリシカバー・ポリティ・グラディエント(PC-PG)アルゴリズムに基づいている。 PO-RLHFでは、報酬関数の知識は仮定されず、アルゴリズムは報酬関数を推測するために軌道に基づく比較フィードバックに依存する。クエリの複雑さが低いPO-RLHFの性能バウンダリを提供し、RLHFで優れたパフォーマンスを得るのに、低量の人的フィードバックが十分な理由を洞察する。重要な特徴は,報酬の観測ではなく,比較クエリの際の報酬関数パラメータを推定するために用いられる,軌道レベルの楕円ポテンシャル解析手法である。本稿では,線形関数近似,PG-RLHF,NN-PG-RLHFの2つの設定でアルゴリズムを解析する。

関連論文リスト

Thompson Sampling in Online RLHF with General Function Approximation [30.209211416606514]
本稿では,人間フィードバック(RLHF)アルゴリズムによる強化学習の統計的効率を理論的観点から検討する。我々はトンプソンサンプリングにインスパイアされたオンラインRLHFのためのモデルフリー後部サンプリングアルゴリズムを設計し、その理論的保証を提供する。
論文参考訳（メタデータ） (2025-05-29T18:22:02Z)
Accelerating RLHF Training with Reward Variance Increase [5.330219278966635]
人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文参考訳（メタデータ） (2025-05-29T08:54:06Z)
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-03T16:16:35Z)
Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.76451379043945]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文参考訳（メタデータ） (2025-02-02T04:40:04Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文参考訳（メタデータ） (2023-12-13T18:58:56Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。 ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文参考訳（メタデータ） (2023-10-16T16:27:06Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。具体的には,「コードレベルの最適化」の結果について検討する。以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文参考訳（メタデータ） (2020-05-25T16:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。