論文の概要: Lifelong Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.00461v1
- Date: Fri, 1 Jul 2022 14:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:44:08.328159
- Title: Lifelong Inverse Reinforcement Learning
- Title(参考訳): 生涯の逆強化学習
- Authors: Jorge A. Mendez and Shashank Shivkumar and Eric Eaton
- Abstract要約: 実演から学ぶ方法(LfD)は,ユーザの模倣による行動方針の獲得に成功している。
デモを通じて多くのタスクを学習しなければならない汎用エージェントの場合、各タスクが独立して学習されると、このプロセスはユーザを著しく負担する。
本稿では,実演を通して連続的なタスクを学習し,タスク間の知識を継続的に伝達し,性能を向上させる逆強化学習のための最初の生涯学習手法を提案する。
- 参考スコア(独自算出の注目度): 23.311605203774388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Methods for learning from demonstration (LfD) have shown success in acquiring
behavior policies by imitating a user. However, even for a single task, LfD may
require numerous demonstrations. For versatile agents that must learn many
tasks via demonstration, this process would substantially burden the user if
each task were learned in isolation. To address this challenge, we introduce
the novel problem of lifelong learning from demonstration, which allows the
agent to continually build upon knowledge learned from previously demonstrated
tasks to accelerate the learning of new tasks, reducing the amount of
demonstrations required. As one solution to this problem, we propose the first
lifelong learning approach to inverse reinforcement learning, which learns
consecutive tasks via demonstration, continually transferring knowledge between
tasks to improve performance.
- Abstract(参考訳): 実演から学ぶ方法(LfD)は,ユーザの模倣による行動方針の獲得に成功している。
しかし、1つのタスクであっても、LfDは多くのデモを必要とする。
デモを通じて多くのタスクを学習しなければならない汎用エージェントの場合、各タスクが独立して学習されると、このプロセスはユーザを著しく負担する。
この課題に対処するために,エージェントが従来実証されていたタスクから学んだ知識を継続的に構築し,新たなタスクの学習を加速し,必要なデモンストレーションの量を削減できる,デモからの生涯学習という新たな問題を紹介する。
この問題に対する1つの解決策として,実演を通じて連続タスクを学習し,タスク間の知識を継続的に伝達し,パフォーマンスを向上させる逆強化学習に対する,最初の生涯学習手法を提案する。
関連論文リスト
- Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - ConTinTin: Continual Learning from Task Instructions [101.36836925135091]
本研究は,新たな学習パラダイムであるConTinTinを定義した。
私たちの知る限り、NLPでConTinTinを研究するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-03-16T10:27:18Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z) - Lifelong Learning of Few-shot Learners across NLP Tasks [45.273018249235705]
私たちは、さまざまなNLPタスクのシーケンスを通じて、生涯学習の難しさを研究します。
アダプタウェイトの生成をいくつかの例から学ぶ,継続的なメタラーニングアプローチを提案する。
私たちのアプローチは、トレーニングタスクよりもモデルのパフォーマンスを維持し、将来のタスクが学習されるとポジティブな知識伝達につながります。
論文 参考訳(メタデータ) (2021-04-18T10:41:56Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。