論文の概要: Provably Efficient Adversarial Imitation Learning with Unknown
Transitions
- arxiv url: http://arxiv.org/abs/2306.06563v1
- Date: Sun, 11 Jun 2023 02:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 18:04:20.285595
- Title: Provably Efficient Adversarial Imitation Learning with Unknown
Transitions
- Title(参考訳): 未知の遷移をもつ効率的な逆模倣学習
- Authors: Tian Xu, Ziniu Li, Yang Yu, Zhi-Quan Luo
- Abstract要約: シミュレーション学習(IL)は、専門家による実証から優れた政策を学ぶための効果的な方法であることが証明されている。
本稿では, 未知遷移の存在下での AIL の理論的基盤について考察する。
我々は,$widetildeO (H3/2 |S|/varepsilon)$と$widetildeO (H3 |S|2 |A|/varepsilon2)$の相互作用複雑性を最小限に設定するアルゴリズムMB-TAILを提案する。
- 参考スコア(独自算出の注目度): 24.70187647541753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning (IL) has proven to be an effective method for learning
good policies from expert demonstrations. Adversarial imitation learning (AIL),
a subset of IL methods, is particularly promising, but its theoretical
foundation in the presence of unknown transitions has yet to be fully
developed. This paper explores the theoretical underpinnings of AIL in this
context, where the stochastic and uncertain nature of environment transitions
presents a challenge. We examine the expert sample complexity and interaction
complexity required to recover good policies. To this end, we establish a
framework connecting reward-free exploration and AIL, and propose an algorithm,
MB-TAIL, that achieves the minimax optimal expert sample complexity of
$\widetilde{O} (H^{3/2} |S|/\varepsilon)$ and interaction complexity of
$\widetilde{O} (H^{3} |S|^2 |A|/\varepsilon^2)$. Here, $H$ represents the
planning horizon, $|S|$ is the state space size, $|A|$ is the action space
size, and $\varepsilon$ is the desired imitation gap. MB-TAIL is the first
algorithm to achieve this level of expert sample complexity in the unknown
transition setting and improves upon the interaction complexity of the
best-known algorithm, OAL, by $O(H)$. Additionally, we demonstrate the
generalization ability of MB-TAIL by extending it to the function approximation
setting and proving that it can achieve expert sample and interaction
complexity independent of $|S|$
- Abstract(参考訳): 模倣学習(il)は、専門家のデモンストレーションから良いポリシーを学ぶ効果的な方法であることが証明されている。
IL手法のサブセットである Adversarial mimicion Learning (AIL) は特に有望であるが、未知の遷移の存在に関する理論的基礎はまだ完全には開発されていない。
本稿では,環境遷移の確率的かつ不確実性が課題となる環境遷移の理論的基礎を考察する。
適切なポリシーの回復に必要なエキスパートサンプルの複雑さとインタラクションの複雑さについて検討する。
この目的のために、報酬のない探索とAILを結合するフレームワークを構築し、$\widetilde{O} (H^{3/2} |S|/\varepsilon)$と$\widetilde{O} (H^{3} |S|^2 |A|/\varepsilon^2)$の相互作用複雑性を実現するアルゴリズムMB-TAILを提案する。
ここで、$H$ は計画地平線を表し、$|S|$ は状態空間サイズ、$|A|$ は作用空間サイズ、$\varepsilon$ は所望の模倣ギャップである。
MB-TAILは、未知の遷移設定においてこのレベルの専門家サンプル複雑性を達成し、最もよく知られたアルゴリズムであるOALの相互作用複雑性を$O(H)$で改善した最初のアルゴリズムである。
さらに、mb-tail の一般化能力を関数近似設定に拡張し、$|s|$ に依存しない専門的なサンプルと相互作用の複雑さを実現できることを示した。
関連論文リスト
- Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。
我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T19:53:58Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Nearly Minimax Optimal Adversarial Imitation Learning with Known and
Unknown Transitions [13.9603281084922]
本論文は、専門家による実証からポリシーを直接最適化する、証明可能な効率のよい敵模倣学習(AIL)アルゴリズムを設計することを目的としている。
TAILと名づけられた遷移型AILアルゴリズムを開発し、既知の遷移条件下では$tildeO(H3/2 |S|/varepsilon)$とする。
特に、MB-TAILは環境と相互作用して経験的遷移モデルを構築し、回復した経験的モデルの下で模倣を行う。
論文 参考訳(メタデータ) (2021-06-19T04:41:33Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。