論文の概要: Adversarial Imitation Learning via Random Search
- arxiv url: http://arxiv.org/abs/2008.09450v1
- Date: Fri, 21 Aug 2020 12:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:11:52.750211
- Title: Adversarial Imitation Learning via Random Search
- Title(参考訳): ランダム検索による逆模倣学習
- Authors: MyungJae Shin, Joongheon Kim
- Abstract要約: 単純な線形ポリシーを用いた微分自由最適化を利用した模倣学習手法を提案する。
本稿では,環境からの直接的な報奨信号を持たないモデルを用いて,MuJoCoの移動タスクにおいて,競合性能が得られることを示す。
- 参考スコア(独自算出の注目度): 15.475463516901938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents that can perform challenging complex tasks is the goal of
reinforcement learning. The model-free reinforcement learning has been
considered as a feasible solution. However, the state of the art research has
been to develop increasingly complicated techniques. This increasing complexity
makes the reconstruction difficult. Furthermore, the problem of reward
dependency is still exists. As a result, research on imitation learning, which
learns policy from a demonstration of experts, has begun to attract attention.
Imitation learning directly learns policy based on data on the behavior of the
experts without the explicit reward signal provided by the environment.
However, imitation learning tries to optimize policies based on deep
reinforcement learning such as trust region policy optimization. As a result,
deep reinforcement learning based imitation learning also poses a crisis of
reproducibility. The issue of complex model-free model has received
considerable critical attention. A derivative-free optimization based
reinforcement learning and the simplification on policies obtain competitive
performance on the dynamic complex tasks. The simplified policies and
derivative free methods make algorithm be simple. The reconfiguration of
research demo becomes easy. In this paper, we propose an imitation learning
method that takes advantage of the derivative-free optimization with simple
linear policies. The proposed method performs simple random search in the
parameter space of policies and shows computational efficiency. Experiments in
this paper show that the proposed model, without a direct reward signal from
the environment, obtains competitive performance on the MuJoCo locomotion
tasks.
- Abstract(参考訳): 複雑なタスクに挑戦できるエージェントの開発は、強化学習の目標である。
モデルフリーの強化学習は実現可能な解決策と見なされてきた。
しかし、芸術研究の状況はますます複雑な技術を開発することになっていた。
この複雑さが増し、再建が困難になる。
さらに、報酬依存の問題も存在する。
その結果,専門家の実証から政策を学ぶ模倣学習の研究が注目されるようになった。
イミテーション学習は、環境が提供した明確な報酬信号なしで専門家の行動に関するデータに基づいてポリシーを直接学習する。
しかし、模倣学習は信頼地域政策最適化のような深い強化学習に基づいてポリシーを最適化しようとする。
その結果、深い強化学習に基づく模倣学習もまた再現性の危機を引き起こす。
複雑なモデルフリーモデルの問題に大きな注目を集めている。
微分自由最適化に基づく強化学習とポリシーの単純化により、動的複雑タスクにおける競合性能が得られる。
単純化されたポリシーと微分自由法はアルゴリズムをシンプルにする。
リサーチデモの再構成は簡単になります。
本稿では,単純な線形ポリシーを用いた微分自由最適化を利用した模倣学習手法を提案する。
提案手法はポリシーのパラメータ空間において単純なランダム探索を行い,計算効率を示す。
本稿では,環境からの直接的な報奨信号を持たないモデルを用いて,MuJoCoの移動タスクにおいて,競合性能が得られることを示す。
関連論文リスト
- Amortized nonmyopic active search via deep imitation learning [16.037812098340343]
アクティブ検索は、希少で価値のあるクラスのメンバを集めることを目標とする、特別なアクティブな学習環境を形式化する。
本稿では,ニューラルネットワークをトレーニングして検索学習を行うことにより,このポリシーの償却について検討する。
我々のネットワークは、合成データに基づいて訓練され、非神秘的な決定をもたらす有益な探索戦略を学習する。
論文 参考訳(メタデータ) (2024-05-23T20:10:29Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。