論文の概要: You Only Live Once: Single-Life Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.08863v1
- Date: Mon, 17 Oct 2022 09:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:57:43.930236
- Title: You Only Live Once: Single-Life Reinforcement Learning
- Title(参考訳): 1回だけ生きる:シングルライフ強化学習
- Authors: Annie S. Chen, Archit Sharma, Sergey Levine, Chelsea Finn
- Abstract要約: 多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
- 参考スコア(独自算出の注目度): 124.1738675154651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms are typically designed to learn a
performant policy that can repeatedly and autonomously complete a task, usually
starting from scratch. However, in many real-world situations, the goal might
not be to learn a policy that can do the task repeatedly, but simply to perform
a new task successfully once in a single trial. For example, imagine a disaster
relief robot tasked with retrieving an item from a fallen building, where it
cannot get direct supervision from humans. It must retrieve this object within
one test-time trial, and must do so while tackling unknown obstacles, though it
may leverage knowledge it has of the building before the disaster. We formalize
this problem setting, which we call single-life reinforcement learning (SLRL),
where an agent must complete a task within a single episode without
interventions, utilizing its prior experience while contending with some form
of novelty. SLRL provides a natural setting to study the challenge of
autonomously adapting to unfamiliar situations, and we find that algorithms
designed for standard episodic reinforcement learning often struggle to recover
from out-of-distribution states in this setting. Motivated by this observation,
we propose an algorithm, $Q$-weighted adversarial learning (QWALE), which
employs a distribution matching strategy that leverages the agent's prior
experience as guidance in novel situations. Our experiments on several
single-life continuous control problems indicate that methods based on our
distribution matching formulation are 20-60% more successful because they can
more quickly recover from novel states.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、スクラッチから始まるタスクを繰り返し、自律的に完了できるパフォーマンスポリシーを学ぶように設計されている。
しかし、現実の多くの状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで一度だけ新しいタスクを成功させることが目的である。
例えば、倒れた建物からアイテムを回収するタスクをこなした災害救助ロボットを想像してみてください。
このオブジェクトを1回のテストタイムトライアルで取得し、未知の障害に取り組む一方で、災害前に建物に持っている知識を活用しなければならない。
我々はこの問題をslrl(single-life reinforcement learning, 単寿命強化学習)と呼び、エージェントは何らかの新しさに対抗しながら、その経験を生かして、1つのエピソードでタスクを完了させなければならない。
slrlは、未知の状況に自律的に適応することの難しさを研究するための自然な設定を提供しており、標準的なエピソジック強化学習のために設計されたアルゴリズムは、この設定で分散状態から回復するのに苦労することがしばしばある。
そこで本研究では,エージェントの事前経験を新たな状況におけるガイダンスとして活用する分布マッチング戦略を用いて,Q$-weighted adversarial Learning (QWALE) というアルゴリズムを提案する。
複数の単寿命連続制御問題に対する実験により, 分布マッチング式に基づく手法は, 新規な状態からより迅速に回復できるため, 20~60%高い成功率を示した。
関連論文リスト
- Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。