論文の概要: Nearly Minimax Optimal Adversarial Imitation Learning with Known and
Unknown Transitions
- arxiv url: http://arxiv.org/abs/2106.10424v1
- Date: Sat, 19 Jun 2021 04:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 13:58:53.330289
- Title: Nearly Minimax Optimal Adversarial Imitation Learning with Known and
Unknown Transitions
- Title(参考訳): 未知および未知遷移を用いた最小限の最適逆数模倣学習
- Authors: Tian Xu, Ziniu Li, Yang Yu
- Abstract要約: 本論文は、専門家による実証からポリシーを直接最適化する、証明可能な効率のよい敵模倣学習(AIL)アルゴリズムを設計することを目的としている。
TAILと名づけられた遷移型AILアルゴリズムを開発し、既知の遷移条件下では$tildeO(H3/2 |S|/varepsilon)$とする。
特に、MB-TAILは環境と相互作用して経験的遷移モデルを構築し、回復した経験的モデルの下で模倣を行う。
- 参考スコア(独自算出の注目度): 13.9603281084922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is dedicated to designing provably efficient adversarial imitation
learning (AIL) algorithms that directly optimize policies from expert
demonstrations. Firstly, we develop a transition-aware AIL algorithm named TAIL
with an expert sample complexity of $\tilde{O}(H^{3/2} |S|/\varepsilon)$ under
the known transition setting, where $H$ is the planning horizon, $|S|$ is the
state space size and $\varepsilon$ is desired policy value gap. This improves
upon the previous best bound of $\tilde{O}(H^2 |S| / \varepsilon^2)$ for AIL
methods and matches the lower bound of $\tilde{\Omega} (H^{3/2}
|S|/\varepsilon)$ in [Rajaraman et al., 2021] up to a logarithmic factor. The
key ingredient of TAIL is a fine-grained estimator for expert state-action
distribution, which explicitly utilizes the transition function information.
Secondly, considering practical settings where the transition functions are
usually unknown but environment interaction is allowed, we accordingly develop
a model-based transition-aware AIL algorithm named MB-TAIL. In particular,
MB-TAIL builds an empirical transition model by interacting with the
environment and performs imitation under the recovered empirical model. The
interaction complexity of MB-TAIL is $\tilde{O} (H^3 |S|^2 |A| /
\varepsilon^2)$, which improves the best known result of $\tilde{O} (H^4 |S|^2
|A| / \varepsilon^2)$ in [Shani et al., 2021]. Finally, our theoretical results
are supported by numerical evaluation and detailed analysis on two challenging
MDPs.
- Abstract(参考訳): 本稿では,専門家による実証からポリシーを直接最適化するailアルゴリズムの設計について述べる。
まず, TAIL と名づけられた遷移型 AIL アルゴリズムを開発し, 既知の遷移条件下では $\tilde{O}(H^{3/2} |S|/\varepsilon)$ で, ここでは $H$ は計画的地平線, $|S|$ は状態空間サイズ, $\varepsilon$ は所望のポリシー値ギャップである。
これは AIL メソッドに対する $\tilde{O}(H^2 |S| / \varepsilon^2)$ の前の最良境界を改善し、$\tilde{\Omega} (H^{3/2} |S|/\varepsilon)$ in [Rajaraman et al., 2021] の下位境界を対数係数に一致する。
TAILの鍵となる要素は、遷移関数情報を明示的に利用する専門的状態-行動分布のきめ細かい推定器である。
第二に、遷移関数が通常不明だが環境相互作用が可能である現実的な設定を考えると、MB-TAILと呼ばれるモデルに基づく遷移型AILアルゴリズムを開発する。
特に、MB-TAILは環境と相互作用して経験的遷移モデルを構築し、回復した経験的モデルの下で模倣を行う。
MB-TAILの相互作用複雑性は$\tilde{O} (H^3 |S|^2 |A| / \varepsilon^2)$であり、[Shani et al., 2021] において $\tilde{O} (H^4 |S|^2 |A| / \varepsilon^2)$ の最もよく知られた結果を改善する。
最後に,2つのMDPの数値評価と詳細な解析を行った。
関連論文リスト
- Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation [8.274693573069442]
多項ロジスティック(MNL)関数近似を用いた強化学習について検討した。
頻繁な後悔の保証を有するランダムな探索を伴う確率的効率のアルゴリズムを提案する。
数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-30T15:39:19Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Provably Efficient Adversarial Imitation Learning with Unknown
Transitions [24.70187647541753]
シミュレーション学習(IL)は、専門家による実証から優れた政策を学ぶための効果的な方法であることが証明されている。
本稿では, 未知遷移の存在下での AIL の理論的基盤について考察する。
我々は,$widetildeO (H3/2 |S|/varepsilon)$と$widetildeO (H3 |S|2 |A|/varepsilon2)$の相互作用複雑性を最小限に設定するアルゴリズムMB-TAILを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:46:41Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Provably Breaking the Quadratic Error Compounding Barrier in Imitation
Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。
rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。
Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文 参考訳(メタデータ) (2021-02-25T15:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。