論文の概要: Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs
- arxiv url: http://arxiv.org/abs/2505.19946v2
- Date: Mon, 02 Jun 2025 13:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.993514
- Title: Inverse Q-Learning Done Right: Offline Imitation Learning in $Q^π$-Realizable MDPs
- Title(参考訳): 逆Q-Learning Done right:$Q^π$-Realizable MDPにおけるオフライン模倣学習
- Authors: Antoine Moulin, Gergely Neu, Luca Viano,
- Abstract要約: マルコフ決定過程(MDP)におけるオフライン模倣学習の問題点について検討する。
サドルポイントオフライン模倣学習(SPOIL)と呼ばれる新しいアルゴリズムを導入する。
SPOILは動作のクローンよりも優れ、最先端のアルゴリズムと競合する。
- 参考スコア(独自算出の注目度): 13.429541377715296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of offline imitation learning in Markov decision processes (MDPs), where the goal is to learn a well-performing policy given a dataset of state-action pairs generated by an expert policy. Complementing a recent line of work on this topic that assumes the expert belongs to a tractable class of known policies, we approach this problem from a new angle and leverage a different type of structural assumption about the environment. Specifically, for the class of linear $Q^\pi$-realizable MDPs, we introduce a new algorithm called saddle-point offline imitation learning (\SPOIL), which is guaranteed to match the performance of any expert up to an additive error $\varepsilon$ with access to $\mathcal{O}(\varepsilon^{-2})$ samples. Moreover, we extend this result to possibly non-linear $Q^\pi$-realizable MDPs at the cost of a worse sample complexity of order $\mathcal{O}(\varepsilon^{-4})$. Finally, our analysis suggests a new loss function for training critic networks from expert data in deep imitation learning. Empirical evaluations on standard benchmarks demonstrate that the neural net implementation of \SPOIL is superior to behavior cloning and competitive with state-of-the-art algorithms.
- Abstract(参考訳): 本稿では,マルコフ決定過程(MDP)におけるオフライン模倣学習の課題について考察する。
本研究は,専門家が抽出可能な既知の政策のクラスに属すると仮定した最近の研究を補完し,この問題を新たな角度からアプローチし,環境に関する異なるタイプの構造的仮定を活用する。
具体的には、線形$Q^\pi$-realizable MDPのクラスに対して、サドルポイントオフライン模倣学習(\SPOIL)と呼ばれる新しいアルゴリズムを導入する。
さらに、この結果は、次数$\mathcal{O}(\varepsilon^{-4})$のより悪いサンプル複雑さを犠牲にして、潜在的に非線形な$Q^\pi$-realizable MDPに拡張する。
最後に、本分析は、専門家データから、深い模倣学習において、批判的ネットワークをトレーニングするための新たな損失関数を示唆する。
標準ベンチマークでの実証的な評価は、 \SPOILのニューラルネット実装は、動作のクローンよりも優れ、最先端のアルゴリズムと競合することを示している。
関連論文リスト
- Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。
所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-03T15:28:44Z) - Demonstration-Regularized RL [39.96273388393764]
専門的な実証から,次数$widetildeO(mathrmPoly(S,A,H)/(varepsilon2 NmathrmE)$および$widetildeO(mathrmPoly(d,H)/(varepsilon2 NmathrmE)$の線形マルコフ決定過程における最適ポリシを同定した。
実演規則化手法が人間のフィードバックからの強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-26T10:54:47Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。