論文の概要: Receding Horizon Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04477v1
- Date: Thu, 9 Jun 2022 13:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:33:24.532014
- Title: Receding Horizon Inverse Reinforcement Learning
- Title(参考訳): Receding Horizon Inverse Reinforcement Learning
- Authors: Yiqing Xu, Wei Gao, David Hsu
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションの目的と好みを説明するコスト関数を推論しようとする。
本稿では,ブラックボックス動的モデルを用いた高次元・雑音・連続システムのための新しいIRLアルゴリズムであるRereeding horizon inverse reinforcement Learning (RHIRL)を提案する。
- 参考スコア(独自算出の注目度): 16.63162838890697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) seeks to infer a cost function that
explains the underlying goals and preferences of expert demonstrations. This
paper presents receding horizon inverse reinforcement learning (RHIRL), a new
IRL algorithm for high-dimensional, noisy, continuous systems with black-box
dynamic models. RHIRL addresses two key challenges of IRL: scalability and
robustness. To handle high-dimensional continuous systems, RHIRL matches the
induced optimal trajectories with expert demonstrations locally in a receding
horizon manner and 'stitches' together the local solutions to learn the cost;
it thereby avoids the 'curse of dimensionality'. This contrasts sharply with
earlier algorithms that match with expert demonstrations globally over the
entire high-dimensional state space. To be robust against imperfect expert
demonstrations and system control noise, RHIRL learns a state-dependent cost
function 'disentangled' from system dynamics under mild conditions. Experiments
on benchmark tasks show that RHIRL outperforms several leading IRL algorithms
in most instances. We also prove that the cumulative error of RHIRL grows
linearly with the task duration.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションの目的と好みを説明するコスト関数を推論しようとする。
本稿では,ブラックボックス動的モデルを用いた高次元,ノイズ,連続システムのための新しいirlアルゴリズムであるreceding horizon inverse reinforcement learning (rhirl)を提案する。
RHIRLはスケーラビリティと堅牢性の2つの主要な課題に対処する。
高次元連続システムを扱うために、rrirlは誘導された最適軌跡と専門家のデモンストレーションを局所的に後退地平線法で一致させ、局所解を合わせてコストを学習し、「次元の曲線」を避ける。
これは、高次元状態空間全体にわたって、世界的に専門家のデモンストレーションと一致する以前のアルゴリズムと鋭く対照的である。
不完全な専門家のデモンストレーションやシステム制御ノイズに対して頑健にするために、RHIRLは、穏やかな条件下でシステムダイナミクスから状態依存のコスト関数「切り離された」ことを学ぶ。
ベンチマークタスクの実験では、ほとんどの場合、RHIRLは主要なIRLアルゴリズムよりも優れていた。
また,RHIRLの累積誤差はタスク時間とともに線形に増加することを示す。
関連論文リスト
- Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Self-Regression Learning for Blind Hyperspectral Image Fusion Without
Label [11.291055330647977]
ハイパースペクトル画像(HSI)を再構築した自己回帰学習法を提案し,観察モデルを推定する。
特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全連結ネットワーク (fcn) を採用している。
我々のモデルは、合成データと実世界のデータセットの両方で実験で最先端の手法を上回ることができる。
論文 参考訳(メタデータ) (2021-03-31T04:48:21Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Reset-Free Lifelong Learning with Skill-Space Planning [105.00539596788127]
非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。
LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-07T09:33:02Z) - Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。
本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。
本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文 参考訳(メタデータ) (2020-10-08T07:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。