論文の概要: BATS: Best Action Trajectory Stitching
- arxiv url: http://arxiv.org/abs/2204.12026v1
- Date: Tue, 26 Apr 2022 01:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:53:18.307985
- Title: BATS: Best Action Trajectory Stitching
- Title(参考訳): BATS:ベストアクショントラックステッチ
- Authors: Ian Char, Viraj Mehta, Adam Villaflor, John M. Dolan, Jeff Schneider
- Abstract要約: 本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
- 参考スコア(独自算出の注目度): 22.75880303352508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of offline reinforcement learning focuses on learning a good
policy from a log of environment interactions. Past efforts for developing
algorithms in this area have revolved around introducing constraints to online
reinforcement learning algorithms to ensure the actions of the learned policy
are constrained to the logged data. In this work, we explore an alternative
approach by planning on the fixed dataset directly. Specifically, we introduce
an algorithm which forms a tabular Markov Decision Process (MDP) over the
logged data by adding new transitions to the dataset. We do this by using
learned dynamics models to plan short trajectories between states. Since exact
value iteration can be performed on this constructed MDP, it becomes easy to
identify which trajectories are advantageous to add to the MDP. Crucially,
since most transitions in this MDP come from the logged data, trajectories from
the MDP can be rolled out for long periods with confidence. We prove that this
property allows one to make upper and lower bounds on the value function up to
appropriate distance metrics. Finally, we demonstrate empirically how
algorithms that uniformly constrain the learned policy to the entire dataset
can result in unwanted behavior, and we show an example in which simply
behavior cloning the optimal policy of the MDP created by our algorithm avoids
this problem.
- Abstract(参考訳): オフライン強化学習の問題は、環境相互作用のログから良い政策を学ぶことに焦点を当てている。
この分野でのアルゴリズム開発における過去の取り組みは、オンライン強化学習アルゴリズムに制約を導入し、学習されたポリシーの動作がログデータに制約されることを確実にする。
本研究では,固定データセットを直接計画することで,代替手法を検討する。
具体的には、データセットに新しい遷移を加えることで、ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを導入する。
我々は、学習力学モデルを用いて状態間の短い軌跡を計画する。
この構成されたMDP上で正確な値反復を行うことができるので、MPPにどのトラジェクトリが有利であるかを容易に識別できる。
重要なことは、このMDPの遷移の大部分はログ化されたデータに由来するため、MDPからの軌道は長期間にわたって信頼性を持って展開することができる。
我々は、この性質により、適切な距離メトリクスまで値関数の上限を上下にすることができることを証明する。
最後に、学習されたポリシーをデータセット全体に一様に制約するアルゴリズムが不必要な振る舞いを生じさせるという実証的な方法を示し、我々のアルゴリズムによって作成されたmdpの最適ポリシーを単純に振る舞いをクローンする例を示す。
関連論文リスト
- Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Safe Policy Improvement for POMDPs via Finite-State Controllers [6.022036788651133]
部分的に観測可能なマルコフ決定プロセス(POMDP)のための安全政策改善(SPI)について検討する。
SPIメソッドは、モデルや環境自体へのアクセスを必要とせず、オフラインで動作ポリシーを確実に改善することを目指している。
我々は,この新方針が(未知の)POMDPの新しいFSCに変換され,行動方針を高い確率で上回ることを示す。
論文 参考訳(メタデータ) (2023-01-12T11:22:54Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。