論文の概要: Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization
- arxiv url: http://arxiv.org/abs/2009.09577v2
- Date: Tue, 22 Sep 2020 23:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:32:24.145126
- Title: Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization
- Title(参考訳): 経験に学ぶ:並行政策最適化を用いたステレオ逆強化学習
- Authors: Feng Tao and Yongcan Cao
- Abstract要約: マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of obtaining a control policy that can
mimic and then outperform expert demonstrations in Markov decision processes
where the reward function is unknown to the learning agent. One main relevant
approach is the inverse reinforcement learning (IRL), which mainly focuses on
inferring a reward function from expert demonstrations. The obtained control
policy by IRL and the associated algorithms, however, can hardly outperform
expert demonstrations. To overcome this limitation, we propose a novel method
that enables the learning agent to outperform the demonstrator via a new
concurrent reward and action policy learning approach. In particular, we first
propose a new stereo utility definition that aims to address the bias in the
interpretation of expert demonstrations. We then propose a loss function for
the learning agent to learn reward and action policies concurrently such that
the learning agent can outperform expert demonstrations. The performance of the
proposed method is first demonstrated in OpenAI environments. Further efforts
are conducted to experimentally validate the proposed method via an indoor
drone flight scenario.
- Abstract(参考訳): 本稿では,学習エージェントに報酬関数が不明なマルコフ決定過程において,専門家のデモンストレーションを模倣し,それを上回る制御方針を得ることの問題点について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
しかし、irlによる制御ポリシーと関連するアルゴリズムは、専門家のデモンストレーションをほとんど上回らない。
この制限を克服するために,学習エージェントが,新たな同時報酬と行動政策学習アプローチにより,実証者を上回ることができる新しい手法を提案する。
特に,我々はまず,専門家による実演の解釈におけるバイアスに対処することを目的とした,新しいステレオユーティリティ定義を提案する。
次に,学習エージェントが,学習エージェントが専門家のデモンストレーションを上回るように,報酬と行動方針を同時に学習するロス関数を提案する。
提案手法の性能はOpenAI環境で最初に実証された。
また,室内ドローン飛行シナリオを用いて,提案手法を実験的に検証する試みを行った。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Good Better Best: Self-Motivated Imitation Learning for noisy
Demonstrations [12.627982138086892]
イミテーション・ラーニングは,エージェントの行動と専門家による実演の相違を最小限にすることで,政策の発見を目指す。
本稿では,現在の政策に劣る政策によって収集された実演を段階的にフィルタリングする自己モチベーション・イミテーション・ラーニング(SMILE)を提案する。
論文 参考訳(メタデータ) (2023-10-24T13:09:56Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。