論文の概要: Corruption Robust Offline Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2402.06734v1
- Date: Fri, 9 Feb 2024 19:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:32:09.508643
- Title: Corruption Robust Offline Reinforcement Learning with Human Feedback
- Title(参考訳): 人的フィードバックによるロバストなオフライン強化学習
- Authors: Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish Singla,
and Goran Radanovi\'c
- Abstract要約: オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。
我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。
- 参考スコア(独自算出の注目度): 33.33154679893122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study data corruption robustness for reinforcement learning with human
feedback (RLHF) in an offline setting. Given an offline dataset of pairs of
trajectories along with feedback about human preferences, an
$\varepsilon$-fraction of the pairs is corrupted (e.g., feedback flipped or
trajectory features manipulated), capturing an adversarial attack or noisy
human preferences. We aim to design algorithms that identify a near-optimal
policy from the corrupted data, with provable guarantees. Existing theoretical
works have separately studied the settings of corruption robust RL (learning
from scalar rewards directly under corruption) and offline RLHF (learning from
human feedback without corruption); however, they are inapplicable to our
problem of dealing with corrupted data in offline RLHF setting. To this end, we
design novel corruption robust offline RLHF methods under various assumptions
on the coverage of the data-generating distributions. At a high level, our
methodology robustifies an offline RLHF framework by first learning a reward
model along with confidence sets and then learning a pessimistic optimal policy
over the confidence set. Our key insight is that learning optimal policy can be
done by leveraging an offline corruption-robust RL oracle in different ways
(e.g., zero-order oracle or first-order oracle), depending on the data coverage
assumptions. To our knowledge, ours is the first work that provides provable
corruption robust offline RLHF methods.
- Abstract(参考訳): オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。
軌道のペアのオフラインデータセットと人間の好みに関するフィードバックが与えられると、ペアの$\varepsilon$-fractionが破壊され(例えば、フィードバックが反転したり、軌道が操作されたりする)、敵対的な攻撃や騒がしい人間の好みをキャプチャする。
我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。
既存の理論的研究では, 汚職に対するロバストなRL(汚職直属の報酬からの学習)とオフラインなRLHF(汚職無しのフィードバックからの学習)の設定を別々に研究しているが, オフラインなRLHF設定では, 破損したデータを扱うという問題には適用できない。
そこで本研究では,データ生成分布のカバレッジに関する様々な仮定の下で,新しい破壊ロバストなオフラインrlhf手法を設計する。
高いレベルでは、まず報酬モデルと信頼セットを学習し、次いで信頼セットに対して悲観的最適ポリシーを学習することで、オフラインのRLHFフレームワークを堅牢化する。
私たちのキーとなる洞察は、データカバレッジの仮定に応じて、オフラインの腐敗したRLオラクルを異なる方法で活用することで、最適なポリシーを学ぶことができるということです。
我々の知る限り、我々の研究は、証明可能な汚職を堅牢なオフラインRLHF方式で提供する最初の成果である。
関連論文リスト
- Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。