論文の概要: Learning non-Markovian Decision-Making from State-only Sequences
- arxiv url: http://arxiv.org/abs/2306.15156v2
- Date: Sat, 1 Jul 2023 08:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 12:16:29.347123
- Title: Learning non-Markovian Decision-Making from State-only Sequences
- Title(参考訳): 状態のみ列からの非マルコフ決定過程の学習
- Authors: Aoyang Qin, Feng Gao, Qing Li, Song-Chun Zhu, Sirui Xie
- Abstract要約: 非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 73.23774904738922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional imitation learning assumes access to the actions of
demonstrators, but these motor signals are often non-observable in naturalistic
settings. Additionally, sequential decision-making behaviors in these settings
can deviate from the assumptions of a standard Markov Decision Process (MDP).
To address these challenges, we explore deep generative modeling of state-only
sequences with non-Markov Decision Process (nMDP), where the policy is an
energy-based prior in the latent space of the state transition generator. We
develop maximum likelihood estimation to achieve model-based imitation, which
involves short-run MCMC sampling from the prior and importance sampling for the
posterior. The learned model enables \textit{decision-making as inference}:
model-free policy execution is equivalent to prior sampling, model-based
planning is posterior sampling initialized from the policy. We demonstrate the
efficacy of the proposed method in a prototypical path planning task with
non-Markovian constraints and show that the learned model exhibits strong
performances in challenging domains from the MuJoCo suite.
- Abstract(参考訳): 従来の模倣学習では、デモ参加者の行動にアクセスできるが、これらの運動信号は自然主義的な環境では観測できないことが多い。
さらに、これらの設定におけるシーケンシャルな意思決定行動は、標準的なマルコフ決定プロセス(MDP)の仮定から逸脱することができる。
これらの課題に対処するために、状態遷移生成器の潜時空間におけるエネルギーベースである非マルコフ決定過程(nMDP)を用いた状態のみ列の深部生成モデリングについて検討する。
提案手法は,後肢の短周期MCMCサンプリングと重要サンプリングを含むモデルベース模倣を実現するための最大推定法である。
モデルなしのポリシーの実行は、事前のサンプリングと等価であり、モデルベースの計画はそのポリシーから初期化された後続のサンプリングである。
非マルコフ制約付き経路計画タスクにおいて,提案手法の有効性を実証し,mujocoスイートからの挑戦領域において,学習モデルが強力な性能を示すことを示した。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。