論文の概要: Variational Latent Branching Model for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2301.12056v1
- Date: Sat, 28 Jan 2023 02:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:24:09.605170
- Title: Variational Latent Branching Model for Off-Policy Evaluation
- Title(参考訳): オフポリティ評価のための変分枝モデル
- Authors: Qitong Gao, Ge Gao, Min Chi, Miroslav Pajic
- Abstract要約: マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 23.073461349048834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based methods have recently shown great potential for off-policy
evaluation (OPE); offline trajectories induced by behavioral policies are
fitted to transitions of Markov decision processes (MDPs), which are used to
rollout simulated trajectories and estimate the performance of policies.
Model-based OPE methods face two key challenges. First, as offline trajectories
are usually fixed, they tend to cover limited state and action space. Second,
the performance of model-based methods can be sensitive to the initialization
of their parameters. In this work, we propose the variational latent branching
model (VLBM) to learn the transition function of MDPs by formulating the
environmental dynamics as a compact latent space, from which the next states
and rewards are then sampled. Specifically, VLBM leverages and extends the
variational inference framework with the recurrent state alignment (RSA), which
is designed to capture as much information underlying the limited training
data, by smoothing out the information flow between the variational (encoding)
and generative (decoding) part of VLBM. Moreover, we also introduce the
branching architecture to improve the model's robustness against randomly
initialized model weights. The effectiveness of the VLBM is evaluated on the
deep OPE (DOPE) benchmark, from which the training trajectories are designed to
result in varied coverage of the state-action space. We show that the VLBM
outperforms existing state-of-the-art OPE methods in general.
- Abstract(参考訳): モデルに基づく手法は、最近、オフ政治評価(OPE)に大きな可能性を示しており、行動政策によって誘導されるオフライン軌道は、シミュレーションされた軌道のロールアウトとポリシーの性能評価に使用されるマルコフ決定過程(MDP)の遷移に適合している。
モデルベースのOPE手法には2つの課題がある。
まず、オフライントラジェクタは通常固定されるため、状態とアクションスペースが制限される傾向がある。
第二に、モデルに基づく手法の性能はパラメータの初期化に敏感である。
本研究では, 環境力学をコンパクトな潜在空間として定式化し, 次の状態と報酬をサンプリングすることにより, MDPの遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
具体的には、VLBMの変分(符号化)部と生成(復号)部の間の情報の流れを円滑にすることで、限られたトレーニングデータの基礎となる情報を取り出すために設計された、リカレント状態アライメント(RSA)を用いて、変分推論フレームワークを活用して拡張する。
さらに,ランダムに初期化されたモデル重みに対するモデルのロバスト性を改善するために,分岐アーキテクチャを導入する。
VLBMの有効性は、Dep OPE(DOPE)ベンチマークで評価され、トレーニング軌道は状態-作用空間の様々なカバレッジをもたらすように設計されている。
VLBM は既存の OPE 手法よりも高い性能を示す。
関連論文リスト
- Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。