論文の概要: LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.00599v1
- Date: Wed, 1 Mar 2023 15:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:22:17.509259
- Title: LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning
- Title(参考訳): LS-IQ:逆強化学習のための暗黙の逆正則化
- Authors: Firas Al-Hafez, Davide Tateo, Oleg Arenz, Guoping Zhao, Jan Peters
- Abstract要約: 暗黙の報酬関数の2乗ノルム正規化は有効であるが、アルゴリズムの結果の性質に関する理論的解析は提供されない。
我々の手法であるLast Squares Inverse Q-Learningは、特に吸収状態の環境において、最先端のアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 30.4251858001151
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent methods for imitation learning directly learn a $Q$-function using an
implicit reward formulation rather than an explicit reward function. However,
these methods generally require implicit reward regularization to improve
stability and often mistreat absorbing states. Previous works show that a
squared norm regularization on the implicit reward function is effective, but
do not provide a theoretical analysis of the resulting properties of the
algorithms. In this work, we show that using this regularizer under a mixture
distribution of the policy and the expert provides a particularly illuminating
perspective: the original objective can be understood as squared Bellman error
minimization, and the corresponding optimization problem minimizes a bounded
$\chi^2$-Divergence between the expert and the mixture distribution. This
perspective allows us to address instabilities and properly treat absorbing
states. We show that our method, Least Squares Inverse Q-Learning (LS-IQ),
outperforms state-of-the-art algorithms, particularly in environments with
absorbing states. Finally, we propose to use an inverse dynamics model to learn
from observations only. Using this approach, we retain performance in settings
where no expert actions are available.
- Abstract(参考訳): 近年の模倣学習法では、暗黙の報酬関数ではなく暗黙の報酬関数を用いてQ$関数を直接学習している。
しかしながら、これらの手法は一般に安定性を向上させるために暗黙の報酬規則化を必要とし、しばしば吸収状態の不正処理を行う。
従来の研究は、暗黙の報酬関数の正則化が有効であることを示しているが、アルゴリズムの結果の性質に関する理論的解析は提供していない。
本稿では、この正規化器をポリシーと専門家の混合分布の下で用いることで、特に照らし出す視点を与える:元の目的は正方形ベルマン誤差最小化と理解でき、対応する最適化問題は、専門家と混合分布との有界な$\chi^2$-divergenceを最小化する。
この視点により、不安定性に対処し、吸収状態を適切に扱うことができる。
我々の手法であるLast Squares Inverse Q-Learning (LS-IQ) は、特に吸収状態の環境において最先端のアルゴリズムよりも優れていることを示す。
最後に、逆ダイナミクスモデルを用いて観測のみから学習することを提案する。
このアプローチを用いることで、専門家のアクションが利用できない設定でパフォーマンスを維持します。
関連論文リスト
- Iterative Reweighted Least Squares Networks With Convergence Guarantees
for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。
そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。
提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文 参考訳(メタデータ) (2023-08-10T17:59:46Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。