論文の概要: Conditional Kernel Imitation Learning for Continuous State Environments
- arxiv url: http://arxiv.org/abs/2308.12573v1
- Date: Thu, 24 Aug 2023 05:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:18:11.222381
- Title: Conditional Kernel Imitation Learning for Continuous State Environments
- Title(参考訳): 連続状態環境における条件付きカーネル模倣学習
- Authors: Rishabh Agrawal, Nathan Dahlin, Rahul Jain, Ashutosh Nayyar
- Abstract要約: 条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
- 参考スコア(独自算出の注目度): 9.750698192309978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) is an important paradigm within the broader
reinforcement learning (RL) methodology. Unlike most of RL, it does not assume
availability of reward-feedback. Reward inference and shaping are known to be
difficult and error-prone methods particularly when the demonstration data
comes from human experts. Classical methods such as behavioral cloning and
inverse reinforcement learning are highly sensitive to estimation errors, a
problem that is particularly acute in continuous state space problems.
Meanwhile, state-of-the-art IL algorithms convert behavioral policy learning
problems into distribution-matching problems which often require additional
online interaction data to be effective. In this paper, we consider the problem
of imitation learning in continuous state space environments based solely on
observed behavior, without access to transition dynamics information, reward
structure, or, most importantly, any additional interactions with the
environment. Our approach is based on the Markov balance equation and
introduces a novel conditional kernel density estimation-based imitation
learning framework. It involves estimating the environment's transition
dynamics using conditional kernel density estimators and seeks to satisfy the
probabilistic balance equations for the environment. We establish that our
estimators satisfy basic asymptotic consistency requirements. Through a series
of numerical experiments on continuous state benchmark environments, we show
consistently superior empirical performance over many state-of-the-art IL
algorithms.
- Abstract(参考訳): 模倣学習(il)は、より広範な強化学習(rl)方法論において重要なパラダイムである。
ほとんどのRLとは異なり、報酬フィードバックの可用性を前提としない。
報酬の推論とシェーピングは、特に人間の専門家によるデモンストレーションデータでは、困難でエラーやすい方法であることが知られている。
行動クローニングや逆強化学習のような古典的な手法は、特に連続状態空間問題において深刻な問題である推定誤差に非常に敏感である。
一方、現在最先端のILアルゴリズムは、行動ポリシー学習問題を、追加のオンラインインタラクションデータを必要とする分散マッチング問題に変換する。
本稿では,連続状態空間環境における模倣学習の課題を,観察された行動のみに基づいて,遷移ダイナミクス情報へのアクセスや報酬構造,あるいは最も重要なのは環境との付加的な相互作用なしに検討する。
本手法はマルコフバランス方程式に基づいて,新しい条件付き核密度推定に基づく模倣学習フレームワークを導入する。
条件付きカーネル密度推定器を用いて環境の遷移力学を推定し、環境の確率的バランス方程式を満足させようとする。
我々は,基本的な漸近的整合性要件を満たす推定器を確立する。
連続状態ベンチマーク環境に関する一連の数値実験を通して、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
関連論文リスト
- On the Convergence and Stability of Upside-Down Reinforcement Learning, Goal-Conditioned Supervised Learning, and Online Decision Transformers [25.880499561355904]
本稿は,表意的なアップサイドダウン強化学習,ゴール・コンディションド・スーパービジョン学習,オンライン決定変換器の収束と安定性を厳密に分析する。
論文 参考訳(メタデータ) (2025-02-08T19:26:22Z) - Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning [8.92571113137362]
本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。
State-of-the-art(SOTA IL)の手法とは異なり、このアプローチはより制約のある現実的な環境で動作することで従来のILの制限に対処する。
我々は多くのSOTA ILアルゴリズムと比較して実験性能が一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-08-17T07:17:19Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes [8.710154439846816]
エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-29T11:53:40Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。