論文の概要: Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees
- arxiv url: http://arxiv.org/abs/2102.07937v1
- Date: Tue, 16 Feb 2021 03:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:17:17.683204
- Title: Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees
- Title(参考訳): 形式的保証付き連続設定における逆強化学習
- Authors: Gregory Dexter, Kevin Bello, and Jean Honorio
- Abstract要約: 逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 31.122125783516726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) is the problem of finding a reward
function which describes observed/known expert behavior. IRL is useful for
automated control in situations where the reward function is difficult to
specify manually, which impedes reinforcement learning. We provide a new IRL
algorithm for the continuous state space setting with unknown transition
dynamics by modeling the system using a basis of orthonormal functions. We
provide a proof of correctness and formal guarantees on the sample and time
complexity of our algorithm.
- Abstract(参考訳): 逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
IRLは、報酬関数が手動で指定するのが困難な状況における自動制御に有用であり、強化学習を妨げる。
正規関数の基底を用いたシステムモデリングにより、未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提案する。
アルゴリズムのサンプルおよび時間的複雑さに対する正当性および形式的保証の証明を提供する。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Continual Deep Learning by Functional Regularisation of Memorable Past [95.97578574330934]
知的システムにとって、新しいスキルを継続的に学習することは重要だが、標準的なディープラーニング手法は、過去の破滅的な忘れ物に悩まされている。
本稿では, 過去の記憶に残るいくつかの例を, 忘れることを避けるために活用する機能正規化手法を提案する。
提案手法は,標準ベンチマーク上での最先端性能を実現し,正規化とメモリベースの手法を自然に組み合わせた生涯学習の新たな方向性を開拓する。
論文 参考訳(メタデータ) (2020-04-29T10:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。