論文の概要: Revisiting Maximum Entropy Inverse Reinforcement Learning: New
Perspectives and Algorithms
- arxiv url: http://arxiv.org/abs/2012.00889v1
- Date: Tue, 1 Dec 2020 23:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 21:40:22.484552
- Title: Revisiting Maximum Entropy Inverse Reinforcement Learning: New
Perspectives and Algorithms
- Title(参考訳): 最大エントロピー逆強化学習の再検討--新しい展望とアルゴリズム
- Authors: Aaron J. Snoswell, Surya P. N. Singh, Nan Ye
- Abstract要約: 与えられた専門家のデモンストレーションと一致した最も非コミット報酬関数を求めるための原理的手法を提案する。
我々のアルゴリズムは、ドライバーの行動予測を含む大規模な実世界のデータセットまでスケールする。
- 参考スコア(独自算出の注目度): 5.1779694507922835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide new perspectives and inference algorithms for Maximum Entropy
(MaxEnt) Inverse Reinforcement Learning (IRL), which provides a principled
method to find a most non-committal reward function consistent with given
expert demonstrations, among many consistent reward functions.
We first present a generalized MaxEnt formulation based on minimizing a
KL-divergence instead of maximizing an entropy. This improves the previous
heuristic derivation of the MaxEnt IRL model (for stochastic MDPs), allows a
unified view of MaxEnt IRL and Relative Entropy IRL, and leads to a model-free
learning algorithm for the MaxEnt IRL model. Second, a careful review of
existing inference algorithms and implementations showed that they
approximately compute the marginals required for learning the model. We provide
examples to illustrate this, and present an efficient and exact inference
algorithm. Our algorithm can handle variable length demonstrations; in
addition, while a basic version takes time quadratic in the maximum
demonstration length L, an improved version of this algorithm reduces this to
linear using a padding trick.
Experiments show that our exact algorithm improves reward learning as
compared to the approximate ones. Furthermore, our algorithm scales up to a
large, real-world dataset involving driver behaviour forecasting. We provide an
optimized implementation compatible with the OpenAI Gym interface. Our new
insight and algorithms could possibly lead to further interest and exploration
of the original MaxEnt IRL model.
- Abstract(参考訳): 我々は,最大エントロピー(MaxEnt)逆強化学習(IRL)のための新しい視点と推論アルゴリズムを提供し,多くの一貫した報酬関数のうち,与えられた専門家の実証と整合した最も非コミット的な報酬関数を求めるための原則的手法を提供する。
まず、エントロピーの最大化ではなく、KL分割の最小化に基づく一般化MaxEntの定式化を提案する。
これにより、MaxEnt IRLモデルの以前のヒューリスティックな導出が改善され、MaxEnt IRLとRelative Entropy IRLの統一的なビューが可能になり、MaxEnt IRLモデルのモデルフリー学習アルゴリズムが実現される。
第二に、既存の推論アルゴリズムと実装を慎重にレビューした結果、モデルを学ぶのに必要な限界をほぼ計算できた。
本稿では、これを例示し、効率的かつ正確な推論アルゴリズムを提案する。
提案アルゴリズムは, 可変長実演の処理が可能であり, また, 基本バージョンは最大実演長さLで2次時間を要するが, 改良版ではパディングトリックを用いて線形化できる。
実験の結果,我々のアルゴリズムは近似アルゴリズムに比べて報酬学習を改善することがわかった。
さらに,運転行動予測を含む大規模実世界のデータセットまでスケールアップする。
OpenAI Gymインタフェースと互換性のある最適化実装を提供する。
我々の新しい洞察とアルゴリズムは、元のMaxEnt IRLモデルのさらなる関心と探索につながる可能性がある。
関連論文リスト
- Efficient first-order algorithms for large-scale, non-smooth maximum
entropy models with application to wildfire science [0.0]
大規模で非滑らかなMaxentモデルのトレーニングのための新しいアルゴリズムを提案する。
提案アルゴリズムはKullback-Leibler分散を利用して,大規模および非滑らかなMaxentモデルを効率的に学習する。
以上の結果から,我々のアルゴリズムは1桁の精度で芸術の状態を上回ります。
論文 参考訳(メタデータ) (2024-03-11T15:33:55Z) - Zero-th Order Algorithm for Softmax Attention Optimization [21.631643446337737]
ソフトマックス最適化に適したゼロ次アルゴリズムを提案する。
本稿では,アルゴリズムの収束を実演し,大規模言語モデルに対する効率的な勾配計算の有効性を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T09:43:50Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - A Primer on Maximum Causal Entropy Inverse Reinforcement Learning [5.660207256468973]
逆強化学習(IRL: Inverse Reinforcement Learning)アルゴリズムは、環境の専門家によって提供される実演を説明する報酬関数を推論する。
本チュートリアルでは、MCE IRLの圧縮導出と、MCE IRLアルゴリズムの現代実装による重要な結果について述べる。
論文 参考訳(メタデータ) (2022-03-22T01:27:26Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。