論文の概要: On The Global Convergence Of Online RLHF With Neural Parametrization
- arxiv url: http://arxiv.org/abs/2410.15610v1
- Date: Mon, 21 Oct 2024 03:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:29.636312
- Title: On The Global Convergence Of Online RLHF With Neural Parametrization
- Title(参考訳): ニューラルパラメトリゼーションによるオンラインRLHFのグローバル収束について
- Authors: Mudit Gaur, Amrit Singh Bedi, Raghu Pasupathy, Vaneet Aggarwal,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。
RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。
本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
- 参考スコア(独自算出の注目度): 36.239015146313136
- License:
- Abstract: The importance of Reinforcement Learning from Human Feedback (RLHF) in aligning large language models (LLMs) with human values cannot be overstated. RLHF is a three-stage process that includes supervised fine-tuning (SFT), reward learning, and policy learning. Although there are several offline and online approaches to aligning LLMs, they often suffer from distribution shift issues. These issues arise from the inability to accurately capture the distributional interdependence between the reward learning and policy learning stages. Consequently, this has led to various approximated approaches, but the theoretical insights and motivations remain largely limited to tabular settings, which do not hold in practice. This gap between theoretical insights and practical implementations is critical. It is challenging to address this gap as it requires analyzing the performance of AI alignment algorithms in neural network-parameterized settings. Although bi-level formulations have shown promise in addressing distribution shift issues, they suffer from the hyper-gradient problem, and current approaches lack efficient algorithms to solve this. In this work, we tackle these challenges employing the bi-level formulation laid out in Kwon et al. (2024) along with the assumption \emph{Weak Gradient Domination} to demonstrate convergence in an RLHF setup, obtaining a sample complexity of $\epsilon^{-\frac{7}{2}}$ . Our key contributions are twofold: (i) We propose a bi-level formulation for AI alignment in parameterized settings and introduce a first-order approach to solve this problem. (ii) We analyze the theoretical convergence rates of the proposed algorithm and derive state-of-the-art bounds. To the best of our knowledge, this is the first work to establish convergence rate bounds and global optimality for the RLHF framework in neural network-parameterized settings.
- Abstract(参考訳): ヒトのフィードバックからの強化学習(RLHF)が大きな言語モデル(LLM)と人間の価値を結びつける上で重要であることは、過大評価できない。
RLHFは、教師付き微調整(SFT)、報酬学習、政策学習を含む3段階のプロセスである。
LLMの調整にはオフラインとオンラインのアプローチがいくつかあるが、分散シフトの問題に悩まされることが多い。
これらの問題は、報酬学習と政策学習段階の間の分配相互依存性を正確に把握できないことから生じる。
その結果、様々な近似的なアプローチが導かれたが、理論的な洞察とモチベーションは、実際には成り立たない表的な設定に限られている。
この理論的な洞察と実践的な実装のギャップは極めて重要である。
ニューラルネットワークパラメータ設定におけるAIアライメントアルゴリズムのパフォーマンスを分析する必要があるため、このギャップに対処することは難しい。
2段階の定式化は分散シフト問題に対処する上で有望であることを示しているが、それらは過次問題に悩まされ、現在のアプローチではこの問題を解決するための効率的なアルゴリズムが欠如している。
本研究では、Kwon et al (2024) で定式化された二段階の定式化と、RLHF セットアップにおける収束を証明し、$\epsilon^{-\frac{7}{2}} のサンプル複雑性を得るための仮定 \emph{Weak Gradient Domination} を用いて、これらの課題に取り組む。
私たちの重要な貢献は2つあります。
i)パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し,この問題を解決するための一階法を提案する。
(2)提案アルゴリズムの理論的収束率を分析し,最先端境界を導出する。
我々の知る限りでは、ニューラルネットワークパラメータ設定におけるRLHFフレームワークの収束率境界と大域的最適性を確立するための最初の試みである。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Decentralized Personalized Federated Learning for Min-Max Problems [79.61785798152529]
本稿では,より広い範囲の最適化問題を含むサドル点問題に対して,PFLを初めて検討した。
この問題に対処するための新しいアルゴリズムを提案し、滑らかな(強く)凸-(強く)凹点問題を理論的に解析する。
両線形問題に対する数値実験と, 対向雑音を有するニューラルネットワークは, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-14T10:36:25Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。