論文の概要: Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2510.09487v2
- Date: Mon, 13 Oct 2025 18:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.250423
- Title: Near-Optimal Second-Order Guarantees for Model-Based Adversarial Imitation Learning
- Title(参考訳): モデルに基づく敵対的模倣学習のための準最適2次保証
- Authors: Shangzhe Li, Dongruo Zhou, Weitong Zhang,
- Abstract要約: エージェントがオフラインの専門家によるデモンストレーションから学び、報酬と対話するオンライン対人模倣学習(AIL)について研究する。
モデルベースAILアルゴリズム(MBAIL)を提案する。
MB-AILは,オンラインインタラクション(対数的要因まで)において,限られた専門家によるデモンストレーションにより,最小限のサンプル複雑性が得られることを示す。
- 参考スコア(独自算出の注目度): 35.41154497688405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study online adversarial imitation learning (AIL), where an agent learns from offline expert demonstrations and interacts with the environment online without access to rewards. Despite strong empirical results, the benefits of online interaction and the impact of stochasticity remain poorly understood. We address these gaps by introducing a model-based AIL algorithm (MB-AIL) and establish its horizon-free, second-order sample-complexity guarantees under general function approximations for both expert data and reward-free interactions. These second-order bounds provide an instance-dependent result that can scale with the variance of returns under the relevant policies and therefore tighten as the system approaches determinism. Together with second-order, information-theoretic lower bounds on a newly constructed hard-instance family, we show that MB-AIL attains minimax-optimal sample complexity for online interaction (up to logarithmic factors) with limited expert demonstrations and matches the lower bound for expert demonstrations in terms of the dependence on horizon $H$, precision $\epsilon$ and the policy variance $\sigma^2$. Experiments further validate our theoretical findings and demonstrate that a practical implementation of MB-AIL matches or surpasses the sample efficiency of existing methods.
- Abstract(参考訳): 本研究では,オンライン対人模倣学習(AIL)について検討し,エージェントがオフラインの専門家によるデモンストレーションから学習し,報酬を伴わずにオンライン環境と対話する。
経験的な結果が強いにもかかわらず、オンラインインタラクションの利点と確率性の影響はいまだに理解されていない。
モデルベースAILアルゴリズム(MB-AIL)を導入し、その水平自由二階サンプル複雑度保証を専門家データと報酬自由相互作用の両方の一般関数近似の下で確立することにより、これらのギャップに対処する。
これらの2階境界は、関連するポリシーの下でのリターンの分散に合わせてスケール可能なインスタンス依存の結果を提供する。
新たに構築されたハード・インスタンス・ファミリーの2次情報理論の下限と合わせて,MB-AILは,限定された専門家によるデモンストレーションによるオンラインインタラクション(対数的要因まで)において,最小値-最適サンプルの複雑性を達成し,水平線上の依存度$H$,精度$\epsilon$,ポリシー分散$\sigma^2$の条件で専門家によるデモンストレーションの下位境界と一致することを示す。
実験により, MB-AILの実践的実装が既存手法のサンプル効率と一致しているか, 上回っていることを示す。
関連論文リスト
- Rate optimal learning of equilibria from data [63.14746189846806]
マルチエージェント・イミテーション・ラーニング(MAIL)における理論的ギャップは,非対話的MAILの限界を特徴づけ,ほぼ最適なサンプル複雑性を持つ最初の対話的アルゴリズムを提示することによって解決する。
インタラクティブな設定では、報酬のない強化学習と対話型MAILを組み合わせたフレームワークを導入し、それをMAIL-WARMというアルゴリズムでインスタンス化する。
我々は,我々の理論を裏付ける数値的な結果を提供し,グリッドワールドのような環境において,行動クローンが学習に失敗する状況を示す。
論文 参考訳(メタデータ) (2025-10-10T12:28:35Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Discriminator-Guided Model-Based Offline Imitation Learning [11.856949845359853]
オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2022-07-01T07:28:18Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。