論文の概要: BiCQL-ML: A Bi-Level Conservative Q-Learning Framework for Maximum Likelihood Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.22210v1
- Date: Thu, 27 Nov 2025 08:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.457348
- Title: BiCQL-ML: A Bi-Level Conservative Q-Learning Framework for Maximum Likelihood Inverse Reinforcement Learning
- Title(参考訳): BiCQL-ML: 最大近似逆強化学習のための双方向保守的Qラーニングフレームワーク
- Authors: Junsung Park,
- Abstract要約: BiCQL-MLはポリシーなしのオフライン逆強化学習アルゴリズムである。
BiCQL-MLは報酬回復とダウンストリームポリシのパフォーマンスの両方を改善している。
- 参考スコア(独自算出の注目度): 10.016258281947122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline inverse reinforcement learning (IRL) aims to recover a reward function that explains expert behavior using only fixed demonstration data, without any additional online interaction. We propose BiCQL-ML, a policy-free offline IRL algorithm that jointly optimizes a reward function and a conservative Q-function in a bi-level framework, thereby avoiding explicit policy learning. The method alternates between (i) learning a conservative Q-function via Conservative Q-Learning (CQL) under the current reward, and (ii) updating the reward parameters to maximize the expected Q-values of expert actions while suppressing over-generalization to out-of-distribution actions. This procedure can be viewed as maximum likelihood estimation under a soft value matching principle. We provide theoretical guarantees that BiCQL-ML converges to a reward function under which the expert policy is soft-optimal. Empirically, we show on standard offline RL benchmarks that BiCQL-ML improves both reward recovery and downstream policy performance compared to existing offline IRL baselines.
- Abstract(参考訳): オフライン逆強化学習(IRL)は、オンラインインタラクションを伴わずに、固定された実演データのみを使用して専門家の振る舞いを説明する報酬関数を回復することを目的としている。
両レベルフレームワークにおける報酬関数と保守的Q-関数を協調的に最適化し,明示的なポリシー学習を回避する,ポリシフリーのオフラインIRLアルゴリズムであるBiCQL-MLを提案する。
その方法は相互に交互に行われる
(i)保守的Q-Learning(CQL)による保守的Q-関数の学習
二 報酬パラメータを更新し、専門家行動の期待Q値の最大化を図り、アウト・オブ・ディストリビューション行動への過度な一般化を抑える。
この手順は、ソフト値マッチング原理の下での最大推定とみなすことができる。
我々は、BiCQL-MLが、専門家ポリシーがソフト最適である報酬関数に収束することを理論的に保証する。
実証的に、通常のオフラインRLベンチマークでは、BiCQL-MLは既存のオフラインIRLベースラインと比較して、報酬回復とダウンストリームポリシーパフォーマンスの両方を改善している。
関連論文リスト
- Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning [1.8789068567093286]
Implicit Q-Learning (IQL)アルゴリズムは、サンプル内学習を実現するために期待できる回帰を採用する。
本稿では,プロジェクティブIQLアルゴリズムであるProj-IQLを提案する。
Proj-IQLはD4RLベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-15T16:17:02Z) - ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。
ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。
理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文 参考訳(メタデータ) (2024-12-22T04:18:02Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。