論文の概要: Forward and inverse reinforcement learning sharing network weights and
hyperparameters
- arxiv url: http://arxiv.org/abs/2008.07284v2
- Date: Tue, 31 May 2022 11:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:15:16.811403
- Title: Forward and inverse reinforcement learning sharing network weights and
hyperparameters
- Title(参考訳): ネットワーク重みとハイパーパラメータを共有するフォワードおよび逆強化学習
- Authors: Eiji Uchibe and Kenji Doya
- Abstract要約: ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
- 参考スコア(独自算出の注目度): 3.705785916791345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes model-free imitation learning named Entropy-Regularized
Imitation Learning (ERIL) that minimizes the reverse Kullback-Leibler (KL)
divergence. ERIL combines forward and inverse reinforcement learning (RL) under
the framework of an entropy-regularized Markov decision process. An inverse RL
step computes the log-ratio between two distributions by evaluating two binary
discriminators. The first discriminator distinguishes the state generated by
the forward RL step from the expert's state. The second discriminator, which is
structured by the theory of entropy regularization, distinguishes the
state-action-next-state tuples generated by the learner from the expert ones.
One notable feature is that the second discriminator shares hyperparameters
with the forward RL, which can be used to control the discriminator's ability.
A forward RL step minimizes the reverse KL estimated by the inverse RL step. We
show that minimizing the reverse KL divergence is equivalent to finding an
optimal policy. Our experimental results on MuJoCo-simulated environments and
vision-based reaching tasks with a robotic arm show that ERIL is more
sample-efficient than the baseline methods. We apply the method to human
behaviors that perform a pole-balancing task and describe how the estimated
reward functions show how every subject achieves her goal.
- Abstract(参考訳): 本稿では,KL(Kulback-Leibler)の逆発散を最小限に抑えた,ERIL(Entropy-Regularized Imitation Learning)というモデルフリーな模倣学習を提案する。
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
逆RLステップは、2つのバイナリ判別器を評価することにより、2つの分布間の対数比を算出する。
第1の判別器は、前方rlステップによって生成された状態を専門家の状態と区別する。
第二の判別器はエントロピー正則化の理論によって構成され、学習者が生成する状態-作用-次状態タプルと専門家のタプルを区別する。
特筆すべき特徴は、第2の識別器が前方のRLとハイパーパラメータを共有し、識別器の能力を制御するために使用できることである。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
ロボットアームを用いた MuJoCo シミュレーション環境と視覚に基づく到達タスクの実験結果から,ERIL はベースライン法よりも試料効率が高いことが示された。
本研究では,ポールバランス作業を行う人間行動に適用し,各被験者が目標を達成する方法を示す報奨関数について述べる。
関連論文リスト
- Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - The Nature of Temporal Difference Errors in Multi-step Distributional
Reinforcement Learning [46.85801978792022]
分散RLに対する多段階オフポリシー学習手法について検討する。
経路依存分布TD誤差の新しい概念を同定する。
我々は, 深部RLエージェントQR-DQN-Retraceを導く新しいアルゴリズムQuantile Regression-Retraceを導出する。
論文 参考訳(メタデータ) (2022-07-15T16:19:23Z) - Branching Reinforcement Learning [16.437993672422955]
分岐強化学習(ブランチングRL)モデルを提案する。
本稿では,Regret Minimization(RM)とReward-Free Exploration(RFE)の指標について検討する。
このモデルは階層的なレコメンデーションシステムやオンライン広告に重要な応用を見出す。
論文 参考訳(メタデータ) (2022-02-16T11:19:03Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。