論文の概要: Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation
- arxiv url: http://arxiv.org/abs/2411.00610v1
- Date: Fri, 01 Nov 2024 14:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:21.864213
- Title: Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation
- Title(参考訳): 一般関数近似を用いた対数模倣学習の確率的・実践的効率化
- Authors: Tian Xu, Zhilong Zhang, Ruishuo Chen, Yihao Sun, Yang Yu,
- Abstract要約: 最適化ベースAIL(OPT-AIL)と呼ばれる新しい手法を提案する。
OPT-AILは一般関数近似を用いた最初の証明可能なAIL法である。
実証的研究により、OPT-AILはいくつかの課題において、従来の最先端の深層AIL法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.228240527941619
- License:
- Abstract: As a prominent category of imitation learning methods, adversarial imitation learning (AIL) has garnered significant practical success powered by neural network approximation. However, existing theoretical studies on AIL are primarily limited to simplified scenarios such as tabular and linear function approximation and involve complex algorithmic designs that hinder practical implementation, highlighting a gap between theory and practice. In this paper, we explore the theoretical underpinnings of online AIL with general function approximation. We introduce a new method called optimization-based AIL (OPT-AIL), which centers on performing online optimization for reward functions and optimism-regularized Bellman error minimization for Q-value functions. Theoretically, we prove that OPT-AIL achieves polynomial expert sample complexity and interaction complexity for learning near-expert policies. To our best knowledge, OPT-AIL is the first provably efficient AIL method with general function approximation. Practically, OPT-AIL only requires the approximate optimization of two objectives, thereby facilitating practical implementation. Empirical studies demonstrate that OPT-AIL outperforms previous state-of-the-art deep AIL methods in several challenging tasks.
- Abstract(参考訳): 模倣学習手法の顕著なカテゴリとして、敵模倣学習(英語版) (AIL) は、ニューラルネットワーク近似による重要な実践的成功をもたらした。
しかし、AILに関する既存の理論的研究は主に表や線形関数近似のような単純化されたシナリオに限られており、実際的な実装を妨げる複雑なアルゴリズム設計を伴い、理論と実践のギャップを浮き彫りにしている。
本稿では,一般関数近似を用いたオンラインAILの理論的基盤について考察する。
本稿では,報酬関数に対するオンライン最適化と,Q値関数に対する最適化正規化ベルマン誤差最小化に着目した最適化ベースのAIL(OPT-AIL)を提案する。
理論的には、OPT-AILは、近専門ポリシーを学習するために、多項式エキスパートサンプルの複雑さと相互作用の複雑さを達成できることを証明している。
我々の知る限り、OPT-AILは一般関数近似を用いた最初の証明可能なAIL法である。
実際、OPT-AILは2つの目的の近似最適化しか必要とせず、実用的な実装を容易にする。
実証的研究により、OPT-AILはいくつかの課題において、従来の最先端の深層AIL法よりも優れていることが示された。
関連論文リスト
- Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation [4.239829789304117]
最適学習の設定にはPAC-ベイズ理論を用いる。
証明可能な一般化保証付き最適化アルゴリズムを学習する最初のフレームワークを提示する。
学習アルゴリズムは、(決定論的)最悪のケース分析から得られた関連アルゴリズムを確実に上回ります。
論文 参考訳(メタデータ) (2024-04-04T08:24:57Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。