論文の概要: Non-Adversarial Imitation Learning Provably Free of Compounding Errors: The Role of Bellman Constraints
- arxiv url: http://arxiv.org/abs/2603.22713v1
- Date: Tue, 24 Mar 2026 02:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.249996
- Title: Non-Adversarial Imitation Learning Provably Free of Compounding Errors: The Role of Bellman Constraints
- Title(参考訳): 複合誤差のない非対人模倣学習:ベルマン制約の役割
- Authors: Tian Xu, Chenyang Wang, Xiaochen Zhai, Ziniu Li, Yi-Chen Li, Yang Yu,
- Abstract要約: AIL(Adversarial mimicion Learning)は,行動クローニング(BC)における複合的誤りを軽減し,高品質な模倣を実現する
本稿では IQ-Learn を再検討し、それが BC に顕著に減少し、地平線上の二次的依存の低い模擬ギャップに苦しむことを示した。
そこで本研究では,新しいQ-based IL法であるDual Q-DM(Dual Q-DM)を提案する。
- 参考スコア(独自算出の注目度): 19.446845699075784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial imitation learning (AIL) achieves high-quality imitation by mitigating compounding errors in behavioral cloning (BC), but often exhibits training instability due to adversarial optimization. To avoid this issue, a class of non-adversarial Q-based imitation learning (IL) methods, represented by IQ-Learn, has emerged and is widely believed to outperform BC by leveraging online environment interactions. However, this paper revisits IQ-Learn and demonstrates that it provably reduces to BC and suffers from an imitation gap lower bound with quadratic dependence on horizon, therefore still suffering from compounding errors. Theoretical analysis reveals that, despite using online interactions, IQ-Learn uniformly suppresses the Q-values for all actions on states uncovered by demonstrations, thereby failing to generalize. To address this limitation, we introduce a primal-dual framework for distribution matching, yielding a new Q-based IL method, Dual Q-DM. The key mechanism in Dual Q-DM is incorporating Bellman constraints to propagate high Q-values from visited states to unvisited ones, thereby achieving generalization beyond demonstrations. We prove that Dual Q-DM is equivalent to AIL and can recover expert actions beyond demonstrations, thereby mitigating compounding errors. To the best of our knowledge, Dual Q-DM is the first non-adversarial IL method that is theoretically guaranteed to eliminate compounding errors. Experimental results further corroborate our theoretical results.
- Abstract(参考訳): 逆模倣学習(AIL)は,行動クローニング(BC)における複合的誤りを軽減し,高品質な模倣を実現する。
この問題を回避するために、IQ-Learnで表される非逆Q型模倣学習(IL)のクラスが出現し、オンライン環境相互作用を活用してBCより優れていると広く信じられている。
しかし,本論文ではIQ-Learnを再検討し,BCGがBCに顕著に減少し,地平線上の二次的依存に拘束された模擬ギャップに悩まされていることを示し,なおも混合誤差に悩まされている。
理論的分析により、IQ-Learnはオンライン相互作用を用いても、デモンストレーションによって発見された状態に対する全てのアクションに対するQ値を均一に抑制し、一般化に失敗することが明らかになった。
この制限に対処するため、分布マッチングのための原始双対フレームワークを導入し、新しいQ-based IL法であるDual Q-DMを提案する。
デュアルQ-DMの鍵となるメカニズムはベルマンの制約を取り入れ、訪問状態から目に見えない状態への高いQ値の伝播を図り、実演を超えて一般化を達成することである。
我々は、Dual Q-DMがAILと等価であることを証明するとともに、実演以外の専門家のアクションを復元し、複合的なエラーを軽減できることを示す。
我々の知る限りでは、Dual Q-DMは、複雑なエラーを排除して理論的に保証される最初の非敵対的IL法である。
実験結果はさらに理論結果の裏付けとなる。
関連論文リスト
- Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - ConQUR: Mitigating Delusional Bias in Deep Q-learning [45.21332566843924]
妄想バイアスは、近似Q-ラーニングにおける基本的なエラー源である。
我々は,根底にある欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することで,妄想バイアスを緩和する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-02-27T19:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。