論文の概要: Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning
with Energy-based Models
- arxiv url: http://arxiv.org/abs/2305.11340v1
- Date: Thu, 18 May 2023 23:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:00:11.004457
- Title: Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning
with Energy-based Models
- Title(参考訳): エネルギーモデルを用いた報酬条件強化学習のベイズ再パラメータ化
- Authors: Wenhao Ding, Tong Che, Ding Zhao, Marco Pavone
- Abstract要約: 現在の報酬条件強化学習アプローチは基本的に限定的であることを示す。
ベイズの定理に触発されたRCRLの帰納バイアスの新たな組を提案する。
BR-RCRL は Gym-Mujoco および Atari のオフライン RL ベンチマークで最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 46.24690220893344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reward-conditioned reinforcement learning (RCRL) has gained
popularity due to its simplicity, flexibility, and off-policy nature. However,
we will show that current RCRL approaches are fundamentally limited and fail to
address two critical challenges of RCRL -- improving generalization on high
reward-to-go (RTG) inputs, and avoiding out-of-distribution (OOD) RTG queries
during testing time. To address these challenges when training vanilla RCRL
architectures, we propose Bayesian Reparameterized RCRL (BR-RCRL), a novel set
of inductive biases for RCRL inspired by Bayes' theorem. BR-RCRL removes a core
obstacle preventing vanilla RCRL from generalizing on high RTG inputs -- a
tendency that the model treats different RTG inputs as independent values,
which we term ``RTG Independence". BR-RCRL also allows us to design an
accompanying adaptive inference method, which maximizes total returns while
avoiding OOD queries that yield unpredictable behaviors in vanilla RCRL
methods. We show that BR-RCRL achieves state-of-the-art performance on the
Gym-Mujoco and Atari offline RL benchmarks, improving upon vanilla RCRL by up
to 11%.
- Abstract(参考訳): 近年、報酬条件強化学習(RCRL)は、その単純さ、柔軟性、および非政治性から人気を集めている。
しかし、現在のRCRLアプローチは基本的に限定的であり、RCRLの2つの重要な課題、すなわち高報酬対ゴー(RTG)入力の一般化の改善、テスト期間中のアウト・オブ・ディストリビューション(OOD)RTGクエリの回避に対処できないことを示す。
バニラRCRLアーキテクチャを訓練する際のこれらの課題を解決するため、ベイズの定理に触発されたRCRLの新しい帰納バイアスであるベイズ再パラメータ化RCRL(BR-RCRL)を提案する。
BR-RCRLは、バニラRCRLが高RTG入力を一般化することを防ぐコア障害を取り除く。
br-rcrlはまた、バニラrcrlメソッドで予測不能な振る舞いをもたらすoodクエリを避けながら、総リターンを最大化する適応的推論方法を設計できる。
BR-RCRL は Gym-Mujoco と Atari のオフライン RL ベンチマークで最先端性能を実現し,バニラ RCRL を最大 11% 改善した。
関連論文リスト
- RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation [40.84214941048131]
RICEは強化学習のための革新的な精製手法である。
トレーニングボトルネックを突破するための説明手法が組み込まれている。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
論文 参考訳(メタデータ) (2024-05-05T22:06:42Z) - ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。