論文の概要: Sample-Efficient Reinforcement Learning from Human Feedback via Information-Directed Sampling
- arxiv url: http://arxiv.org/abs/2502.05434v1
- Date: Sat, 08 Feb 2025 03:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:52.612467
- Title: Sample-Efficient Reinforcement Learning from Human Feedback via Information-Directed Sampling
- Title(参考訳): 情報指向サンプリングによる人間のフィードバックからのサンプル効率の良い強化学習
- Authors: Han Qi, Haochen Yang, Qiaosheng Zhang, Zhuoran Yang,
- Abstract要約: 本研究では,大規模言語モデルの学習において重要な課題である,人間からのフィードバック(RLHF)による強化学習の課題について検討する。
我々の主な貢献は、情報指向サンプリング(IDS)に基づく新しいサンプル効率RLHFアルゴリズムの設計である。
本研究は、強化学習と大規模言語モデルの訓練における情報理論の価値を示す。
- 参考スコア(独自算出の注目度): 46.035795210898414
- License:
- Abstract: We study the problem of reinforcement learning from human feedback (RLHF), a critical problem in training large language models, from a theoretical perspective. Our main contribution is the design of novel sample-efficient RLHF algorithms based on information-directed sampling (IDS), an online decision-making principle inspired by information theory. Our algorithms maximize the sum of the value function and a mutual information term that encourages exploration of the unknown environment (which quantifies the information gained about the environment through observed human feedback data). To tackle the challenge of large state spaces and improve sample efficiency, we construct a simplified \emph{surrogate environment} and introduce a novel distance measure (named the \emph{$\ell_g$-distance}), enabling our IDS-based algorithm to achieve a Bayesian regret upper bound of order $O(H^{\frac{3}{2}}\sqrt{\log(K(\epsilon)) T})$, where $H$ is the episode length, $T$ is the number of episode and $K(\epsilon)$ is related to the covering number of the environment. Specializing to the tabular settings, this regret bound is of order $\tilde{O}(H^2\sqrt{SAT})$, where $S$ and $A$ are the numbers of states and actions. Finally, we propose an Approximate-IDS algorithm that is computationally more efficient while maintaining nearly the same sample efficiency. The design principle of this approximate algorithm is not only effective in RLHF settings but also applicable to the standard RL framework. Moreover, our work showcases the value of information theory in reinforcement learning and in the training of large language models.
- Abstract(参考訳): 本稿では,人間からのフィードバック(RLHF)による強化学習の課題について理論的観点から検討する。
我々の主な貢献は、情報理論にインスパイアされたオンライン意思決定原理である情報指向サンプリング(IDS)に基づく、新しいサンプル効率のRLHFアルゴリズムの設計である。
提案アルゴリズムは,評価関数の和を最大化し,未知環境の探索を奨励する相互情報項(観察された人間のフィードバックデータを通して得られた環境に関する情報を定量化する)を最大化する。
大規模な状態空間の課題に対処し、サンプル効率を向上させるため、単純化された \emph{surrogate environment} を構築し、新しい距離測度( \emph{$\ell_g$-distance} と呼ばれる)を導入し、我々のIDSベースのアルゴリズムがベイズ的後悔の上界の次数$O(H^{\frac{3}{2}}\sqrt{\log(K(\epsilon))T})$、$H$はエピソード長、$T$はエピソード数、$K(\epsilon)$は環境のカバー数に関連付けることができる。
表の設定に特化して、この後悔のバウンダリは$\tilde{O}(H^2\sqrt{SAT})$で、$S$と$A$は状態とアクションの数である。
最後に,ほぼ同じサンプル効率を維持しつつ,計算効率が向上する近似IDSアルゴリズムを提案する。
この近似アルゴリズムの設計原理は、RLHF設定だけでなく、標準のRLフレームワークにも有効である。
さらに,本研究は,強化学習と大規模言語モデルの訓練における情報理論の価値を示す。
関連論文リスト
- Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。