論文の概要: Imitation Learning by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.04763v1
- Date: Tue, 10 Aug 2021 16:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:30:43.982683
- Title: Imitation Learning by Reinforcement Learning
- Title(参考訳): 強化学習による模倣学習
- Authors: Kamil Ciosek
- Abstract要約: 決定論的専門家にとって、模倣学習は強化学習を減らして行うことができることを示す。
我々は、連続的な制御タスクにおいて、その削減が実際にうまく機能することを確認する実験を行う。
- 参考スコア(独自算出の注目度): 16.62889844853729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning algorithms learn a policy from demonstrations of expert
behavior. Somewhat counterintuitively, we show that, for deterministic experts,
imitation learning can be done by reduction to reinforcement learning, which is
commonly considered more difficult. We conduct experiments which confirm that
our reduction works well in practice for a continuous control task.
- Abstract(参考訳): 模倣学習アルゴリズムは、専門家の行動の実証からポリシーを学ぶ。
直観に反することに、決定論的専門家にとって、模倣学習は強化学習への還元によってなされるが、これは一般的にはより難しいと考えられている。
我々は, 連続制御タスクにおいて, 実効性を確認する実験を行う。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - The Difficulty of Passive Learning in Deep Reinforcement Learning [26.124032923011328]
アクティブな環境相互作用のない観測データから行動する学習は、強化学習(RL)の課題としてよく知られている。
最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。
オフライン強化学習における困難を実証的に分析する「タンデム学習」実験パラダイムを提案する。
論文 参考訳(メタデータ) (2021-10-26T20:50:49Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - Rehearsal revealed: The limits and merits of revisiting samples in
continual learning [43.40531878205344]
我々は,継続学習における最も確立された手法の一つであるリハーサルの限界とメリットについて考察する。
リハーサルで順次訓練されたモデルは、タスクが完了した後も同じ低損失領域にとどまりがちであるが、サンプルメモリに過剰適合する危険性がある。
論文 参考訳(メタデータ) (2021-04-15T13:28:14Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。