論文の概要: Adversarial Imitation Learning with General Function Approximation: Theoretical Analysis and Practical Algorithms
- arxiv url: http://arxiv.org/abs/2605.01778v1
- Date: Sun, 03 May 2026 08:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.935345
- Title: Adversarial Imitation Learning with General Function Approximation: Theoretical Analysis and Practical Algorithms
- Title(参考訳): 一般関数近似を用いた対数模倣学習:理論的解析と実践的アルゴリズム
- Authors: Tian Xu, Zhilong Zhang, Zexuan Chen, Ruishuo Chen, Yihao Sun, Yang Yu,
- Abstract要約: 我々は最適化ベースのAIL(OPT-AIL)と呼ばれる新しいフレームワークを紹介する。
OPT-AILは報酬学習のためのオンライン最適化と政策学習のための最適化を行う。
我々の知る限り、OPT-AILは一般関数近似における最初の証明可能なAIL法である。
- 参考スコア(独自算出の注目度): 20.16205018738796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial imitation learning (AIL), a prominent approach in imitation learning, has achieved significant practical success powered by neural network approximation. However, existing theoretical analyses of AIL are primarily confined to simplified settings, such as tabular and linear function approximation, and involve complex algorithmic designs that impede practical implementation. This creates a substantial gap between theory and practice. This paper bridges this gap by exploring the theoretical underpinnings of online AIL with general function approximation. We introduce a novel framework called optimization-based AIL (OPT-AIL), which performs online optimization for reward learning coupled with optimism-regularized optimization for policy learning. Within this framework, we develop two concrete methods: model-free OPT-AIL and model-based OPT-AIL. Our theoretical analysis demonstrates that both variants achieve polynomial expert sample complexity and interaction complexity for learning near-expert policies. To the best of our knowledge, they represent the first provably efficient AIL methods under general function approximation. From a practical standpoint, OPT-AIL requires only the approximate optimization of two objectives, thereby facilitating practical implementation. Empirical studies demonstrate that OPT-AIL outperforms previous state-of-the-art deep AIL methods across several challenging tasks.
- Abstract(参考訳): 逆模倣学習(Adversarial mimicion learning, AIL)は、ニューラルネットワークの近似による実践的成功である。
しかし、既存の AIL の理論解析は主に表や線形関数近似のような単純化された設定に限られており、実用的な実装を妨げる複雑なアルゴリズム設計を含んでいる。
これは理論と実践の間に大きなギャップを生じさせる。
本稿では,一般関数近似によるオンラインAILの理論的基盤を探ることで,このギャップを埋める。
本稿では、報酬学習のためのオンライン最適化とポリシー学習のための最適化を併用した、最適化ベースのAIL(OPT-AIL)という新しいフレームワークを紹介する。
本フレームワークでは,モデルフリー OPT-AIL とモデルベース OPT-AIL の2つの具体的な手法を開発した。
理論的解析により, 両変種は, ほぼ専門的な政策を学習するために, 多項式エキスパート標本の複雑さと相互作用の複雑さを達成できることが示されている。
我々の知る限りでは、これらの手法は一般関数近似における最初の証明可能な効率的な AIL 手法である。
実用の観点からは、OPT-AILは2つの目的の近似最適化しか必要とせず、実用的な実装を容易にする。
実証的研究により、OPT-AILは、過去の最先端の深層AIL手法よりも、いくつかの課題において優れていたことが示されている。
関連論文リスト
- Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation [13.228240527941619]
最適化ベースAIL(OPT-AIL)と呼ばれる新しい手法を提案する。
OPT-AILは一般関数近似を用いた最初の証明可能なAIL法である。
実証的研究により、OPT-AILはいくつかの課題において、従来の最先端の深層AIL法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-01T14:17:38Z) - Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation [4.239829789304117]
最適学習の設定にはPAC-ベイズ理論を用いる。
証明可能な一般化保証付き最適化アルゴリズムを学習する最初のフレームワークを提示する。
学習アルゴリズムは、(決定論的)最悪のケース分析から得られた関連アルゴリズムを確実に上回ります。
論文 参考訳(メタデータ) (2024-04-04T08:24:57Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。