論文の概要: Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.04682v1
- Date: Sat, 6 Apr 2024 17:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:00:13.114461
- Title: Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning
- Title(参考訳): 構成保守主義:オフライン強化学習におけるトランスダクティブアプローチ
- Authors: Yeda Song, Dongwook Lee, Gunhee Kim,
- Abstract要約: オフライン強化学習のためのCOCOA(Anchor-seeking)を用いたコミュケーショナル・コミュケータリズムを提案する。
我々は4つの最先端のオフラインRLアルゴリズムにCOCOAを適用し、それらをD4RLベンチマークで評価する。
- 参考スコア(独自算出の注目度): 38.48360240082561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) is a compelling framework for learning optimal policies from past experiences without additional interaction with the environment. Nevertheless, offline RL inevitably faces the problem of distributional shifts, where the states and actions encountered during policy execution may not be in the training dataset distribution. A common solution involves incorporating conservatism into the policy or the value function to safeguard against uncertainties and unknowns. In this work, we focus on achieving the same objectives of conservatism but from a different perspective. We propose COmpositional COnservatism with Anchor-seeking (COCOA) for offline RL, an approach that pursues conservatism in a compositional manner on top of the transductive reparameterization (Netanyahu et al., 2023), which decomposes the input variable (the state in our case) into an anchor and its difference from the original input. Our COCOA seeks both in-distribution anchors and differences by utilizing the learned reverse dynamics model, encouraging conservatism in the compositional input space for the policy or value function. Such compositional conservatism is independent of and agnostic to the prevalent behavioral conservatism in offline RL. We apply COCOA to four state-of-the-art offline RL algorithms and evaluate them on the D4RL benchmark, where COCOA generally improves the performance of each algorithm. The code is available at https://github.com/runamu/compositional-conservatism.
- Abstract(参考訳): オフライン強化学習(RL)は、環境とのさらなる相互作用なしに過去の経験から最適な政策を学ぶための魅力的なフレームワークである。
それでも、オフラインRLは必然的に、ポリシー実行中に遭遇した状態やアクションがトレーニングデータセットの分布に存在しないような、分散シフトの問題に直面している。
共通の解決策は、不確実性や未知に対する保護のために、保守主義を政策や価値関数に組み込むことである。
本研究では,保守主義の同じ目的を達成することに注力する。
オフラインRLにおける共振共振器共振器共振器共振器(COCOA)を提案する。これは共振器共振器共振器共振器(Netanyahu et al , 2023)を用いて、入力変数(この場合の状態)をアンカーに分解し、元の入力と異なる。
我々のCOCOAは、学習された逆ダイナミクスモデルを活用し、ポリシーや値関数の合成入力空間における保守性を奨励することで、分配アンカーと相違点の両方を求める。
このような構成的保守主義は、オフラインRLにおける一般的な行動保守主義とは独立であり、無関係である。
我々は、COCOAを4つの最先端のオフラインRLアルゴリズムに適用し、それらをD4RLベンチマークで評価する。
コードはhttps://github.com/runamu/compositional-conservatismで公開されている。
関連論文リスト
- CROP: Conservative Reward for Model-based Offline Policy Optimization [15.121328040092264]
本稿では、モデルベースオフラインポリシー最適化(CROP)のための新しいモデルベースオフラインRLアルゴリズム、保守的リワードを提案する。
保守的な報奨推定を実現するため、CROPは、ランダムな動作の推定誤差と報酬を同時に最小化する。
特にCROPは、オフラインRLとオンラインRLの革新的な接続を確立し、オンラインRL技術を採用することでオフラインRLの問題に取り組むことができることを強調している。
論文 参考訳(メタデータ) (2023-10-26T08:45:23Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。