論文の概要: Towards Generalized Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07246v1
- Date: Sun, 11 Feb 2024 17:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:46:28.891719
- Title: Towards Generalized Inverse Reinforcement Learning
- Title(参考訳): 一般化逆強化学習に向けて
- Authors: Chaosheng Dong, Yijia Wang
- Abstract要約: 本稿では、最適でないかもしれない観察行動(政治)について、MDPの基本成分を学習する問題を考察する。
GIRLにおける2つの重要な課題に対処する: 第一に、観測された政策と基礎となる最適政策の相違を定量化する必要性、第二に、基礎となる最適政策を数学的に特徴づけることの難しさ。
- 参考スコア(独自算出の注目度): 11.880139160394958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies generalized inverse reinforcement learning (GIRL) in
Markov decision processes (MDPs), that is, the problem of learning the basic
components of an MDP given observed behavior (policy) that might not be
optimal. These components include not only the reward function and transition
probability matrices, but also the action space and state space that are not
exactly known but are known to belong to given uncertainty sets. We address two
key challenges in GIRL: first, the need to quantify the discrepancy between the
observed policy and the underlying optimal policy; second, the difficulty of
mathematically characterizing the underlying optimal policy when the basic
components of an MDP are unobservable or partially observable. Then, we propose
the mathematical formulation for GIRL and develop a fast heuristic algorithm.
Numerical results on both finite and infinite state problems show the merit of
our formulation and algorithm.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)における逆強化学習(GIRL)の一般化について検討する。
これらの成分は、報酬関数や遷移確率行列だけでなく、正確には知られていないが与えられた不確実性集合に属することが知られている作用空間や状態空間も含まれる。
GIRLにおける2つの重要な課題に対処する: 第一に、観測された政策と基礎となる最適政策の相違を定量化する必要性; 第二に、MDPの基本成分が観測不可能または部分的に観測可能でない場合に、基礎となる最適政策を数学的に特徴づけることの難しさ。
そして、GIRLの数学的定式化を提案し、高速ヒューリスティックアルゴリズムを開発する。
有限状態問題と無限状態問題の両方における数値結果は、我々の定式化とアルゴリズムの利点を示している。
関連論文リスト
- Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムを適用するための一般的な枠組みを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に重点を置いている。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - Learning in Observable POMDPs, without Computationally Intractable
Oracles [23.636033995089587]
我々は,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。
具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。
論文 参考訳(メタデータ) (2022-06-07T17:05:27Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Robust Finite-State Controllers for Uncertain POMDPs [25.377873201375515]
不確実部分可観測決定過程 (uPOMDPs) により、標準POMDPの確率的遷移観測関数は不確実集合に属する。
UPOMDPの有限メモリポリシを計算するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-24T02:58:50Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。