論文の概要: Robust Offline Policy Evaluation and Optimization with Heavy-Tailed
Rewards
- arxiv url: http://arxiv.org/abs/2310.18715v1
- Date: Sat, 28 Oct 2023 14:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:53:27.572423
- Title: Robust Offline Policy Evaluation and Optimization with Heavy-Tailed
Rewards
- Title(参考訳): 重装リワードを用いたロバストオフライン政策評価と最適化
- Authors: Jin Zhu, Runzhe Wan, Zhengling Qi, Shikai Luo and Chengchun Shi
- Abstract要約: 本稿では,重み付き報酬を伴うシナリオにおいて,オフライン強化学習(RL)の堅牢性を高めるための取り組みを行う。
本稿では, ROAM と ROOM という2つのアルゴリズムフレームワークを提案し, 堅牢なオフポリティ評価 (OPE) とオフラインポリシ最適化 (OPO) を提案する。
- 参考スコア(独自算出の注目度): 22.372832207678098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper endeavors to augment the robustness of offline reinforcement
learning (RL) in scenarios laden with heavy-tailed rewards, a prevalent
circumstance in real-world applications. We propose two algorithmic frameworks,
ROAM and ROOM, for robust off-policy evaluation (OPE) and offline policy
optimization (OPO), respectively. Central to our frameworks is the strategic
incorporation of the median-of-means method with offline RL, enabling
straightforward uncertainty estimation for the value function estimator. This
not only adheres to the principle of pessimism in OPO but also adeptly manages
heavy-tailed rewards. Theoretical results and extensive experiments demonstrate
that our two frameworks outperform existing methods on the logged dataset
exhibits heavy-tailed reward distributions.
- Abstract(参考訳): 本論文は,実世界の応用において一般的である重み付き報酬を伴うシナリオにおいて,オフライン強化学習(RL)の堅牢性を高めるための試みである。
本稿では, ROAM と ROOM の2つのアルゴリズムフレームワークを提案し, 堅牢なオフポリシー評価 (OPE) とオフラインポリシー最適化 (OPO) を提案する。
我々のフレームワークの中心は、平均値の中央値法をオフラインRLで戦略的に組み込むことであり、値関数推定器の明確な不確実性推定を可能にする。
これは、OPOにおける悲観主義の原則に固執するだけでなく、重い報酬を管理する。
理論的な結果と広範な実験により、当社の2つのフレームワークは、ログデータセット上の既存の手法よりも優れていることが示されている。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。