論文の概要: Corruption Robust Offline Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2402.06734v1
- Date: Fri, 9 Feb 2024 19:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:32:09.508643
- Title: Corruption Robust Offline Reinforcement Learning with Human Feedback
- Title(参考訳): 人的フィードバックによるロバストなオフライン強化学習
- Authors: Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish Singla,
and Goran Radanovi\'c
- Abstract要約: オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。
我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。
- 参考スコア(独自算出の注目度): 33.33154679893122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study data corruption robustness for reinforcement learning with human
feedback (RLHF) in an offline setting. Given an offline dataset of pairs of
trajectories along with feedback about human preferences, an
$\varepsilon$-fraction of the pairs is corrupted (e.g., feedback flipped or
trajectory features manipulated), capturing an adversarial attack or noisy
human preferences. We aim to design algorithms that identify a near-optimal
policy from the corrupted data, with provable guarantees. Existing theoretical
works have separately studied the settings of corruption robust RL (learning
from scalar rewards directly under corruption) and offline RLHF (learning from
human feedback without corruption); however, they are inapplicable to our
problem of dealing with corrupted data in offline RLHF setting. To this end, we
design novel corruption robust offline RLHF methods under various assumptions
on the coverage of the data-generating distributions. At a high level, our
methodology robustifies an offline RLHF framework by first learning a reward
model along with confidence sets and then learning a pessimistic optimal policy
over the confidence set. Our key insight is that learning optimal policy can be
done by leveraging an offline corruption-robust RL oracle in different ways
(e.g., zero-order oracle or first-order oracle), depending on the data coverage
assumptions. To our knowledge, ours is the first work that provides provable
corruption robust offline RLHF methods.
- Abstract(参考訳): オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。
軌道のペアのオフラインデータセットと人間の好みに関するフィードバックが与えられると、ペアの$\varepsilon$-fractionが破壊され(例えば、フィードバックが反転したり、軌道が操作されたりする)、敵対的な攻撃や騒がしい人間の好みをキャプチャする。
我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。
既存の理論的研究では, 汚職に対するロバストなRL(汚職直属の報酬からの学習)とオフラインなRLHF(汚職無しのフィードバックからの学習)の設定を別々に研究しているが, オフラインなRLHF設定では, 破損したデータを扱うという問題には適用できない。
そこで本研究では,データ生成分布のカバレッジに関する様々な仮定の下で,新しい破壊ロバストなオフラインrlhf手法を設計する。
高いレベルでは、まず報酬モデルと信頼セットを学習し、次いで信頼セットに対して悲観的最適ポリシーを学習することで、オフラインのRLHFフレームワークを堅牢化する。
私たちのキーとなる洞察は、データカバレッジの仮定に応じて、オフラインの腐敗したRLオラクルを異なる方法で活用することで、最適なポリシーを学ぶことができるということです。
我々の知る限り、我々の研究は、証明可能な汚職を堅牢なオフラインRLHF方式で提供する最初の成果である。
関連論文リスト
- Towards Robust Model-Based Reinforcement Learning Against Adversarial
Corruption [66.5930514142814]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。
実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。
2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文 参考訳(メタデータ) (2022-11-02T20:25:18Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - On Provable Backdoor Defense in Collaborative Learning [35.22450536986004]
悪意のあるユーザは、モデルの収束を防ぐためにデータをアップロードしたり、隠れたバックドアを注入したりできる。
標準的なテストデータではモデルが正常に動作するため、バックドア攻撃は特に検出が難しいが、特定のバックドアキーによってトリガーされた場合、間違ったアウトプットが与えられる。
既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-19T14:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。