論文の概要: When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.17600v1
- Date: Thu, 30 Mar 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:13:49.808445
- Title: When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning
- Title(参考訳): 学習が手が届かないとき、リセット:自律視覚強化学習における一般化
- Authors: Zichen Zhang, Luca Weihs
- Abstract要約: エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。
この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。
提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
- 参考スコア(独自算出の注目度): 10.469509984098705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Episodic training, where an agent's environment is reset after every success
or failure, is the de facto standard when training embodied reinforcement
learning (RL) agents. The underlying assumption that the environment can be
easily reset is limiting both practically, as resets generally require human
effort in the real world and can be computationally expensive in simulation,
and philosophically, as we'd expect intelligent agents to be able to
continuously learn without intervention. Work in learning without any resets,
i.e{.} Reset-Free RL (RF-RL), is promising but is plagued by the problem of
irreversible transitions (e.g{.} an object breaking) which halt learning.
Moreover, the limited state diversity and instrument setup encountered during
RF-RL means that works studying RF-RL largely do not require their models to
generalize to new environments. In this work, we instead look to minimize,
rather than completely eliminate, resets while building visual agents that can
meaningfully generalize. As studying generalization has previously not been a
focus of benchmarks designed for RF-RL, we propose a new Stretch Pick-and-Place
benchmark designed for evaluating generalizations across goals, cosmetic
variations, and structural changes. Moreover, towards building performant
reset-minimizing RL agents, we propose unsupervised metrics to detect
irreversible transitions and a single-policy training mechanism to enable
generalization. Our proposed approach significantly outperforms prior episodic,
reset-free, and reset-minimizing approaches achieving higher success rates with
fewer resets in Stretch-P\&P and another popular RF-RL benchmark. Finally, we
find that our proposed approach can dramatically reduce the number of resets
required for training other embodied tasks, in particular for RoboTHOR
ObjectNav we obtain higher success rates than episodic approaches using 99.97\%
fewer resets.
- Abstract(参考訳): エージェントの環境が成功や失敗のたびにリセットされるエピソディックトレーニングは、embodied reinforcement learning (rl)エージェントのトレーニングにおけるデファクトスタンダードである。
環境が簡単にリセットできるという基本的な仮定は、現実の世界における人間の努力が一般的に必要であり、シミュレーションにおいて計算コストがかかり、哲学的には、知的エージェントが介入なしに継続的に学習できることを期待するからである。
リセットなしで学習する。
Reset-Free RL (RF-RL) は有望であるが、学習を停止させる可逆遷移(例えば、物体の破壊)の問題に悩まされている。
さらに、RF-RL中に発生する限られた状態の多様性と機器の設定は、RF-RLを研究する作業が、新しい環境に一般化するためのモデルを必要としないことを意味している。
この研究では、視覚エージェントを構築しながら、完全に排除するのではなく、最小限のリセットを目指す。
RF-RL向けに設計されたベンチマークでは,これまで一般化が重視されていなかったため,目標,化粧品のバリエーション,構造変化の一般化を評価するために,新しいStretch Pick-and-Placeベンチマークを提案する。
さらに,パフォーマンスリセット最小化RLエージェントの構築に向けて,可逆遷移を検出するための教師なしメトリクスと,一般化を実現するための単一政治学習機構を提案する。
提案手法は,Stretch-P\&Pおよび他のRF-RLベンチマークにおいて,より少ないリセットで高い成功率を達成するために,事前のエピソード,リセットフリー,リセット最小化アプローチを著しく上回る。
最後に,提案手法は,他の実施タスクの訓練に必要なリセット数を劇的に削減することができること,特にrobothor objectnavでは,99.97\%少ないリセットを用いたエピソディックアプローチよりも高い成功率が得られることを見出した。
関連論文リスト
- World Models Increase Autonomy in Reinforcement Learning [6.151562278670799]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。
MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。
環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-08-19T08:56:00Z) - Intelligent Switching for Reset-Free RL [19.154045065314243]
実世界では、シミュレーションでエージェントを訓練するのに必要とされる強いエピソードリセットメカニズムは利用できない。
最近の研究は、フォワードエージェントを初期状態に戻す第2の(textitbackward)エージェントを構築することで、学習したリセットでエージェントを訓練することを目的としている。
我々は,エージェントの現在の目標達成に対する自信に基づいて,エージェント間のインテリジェントな切り替えを行う,Intelligently Switching Controller (RISC) による新しいアルゴリズム Reset Free RL を作成する。
論文 参考訳(メタデータ) (2024-05-02T19:15:00Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reset-free Reinforcement Learning by No-Regret Reduction [13.800970428473134]
本稿では,リセットフリーなRLアルゴリズムを体系的に設計する汎用的ノ・レグレット還元法を提案する。
我々の減少はリセットのないRL問題を2プレーヤゲームに変える。
この2プレイヤーゲームにおいてサブリニア後悔を達成することは、元のRL問題においてサブリニア性能後悔とサブリニア総リセット数の両方を持つポリシーを学ぶことを意味する。
論文 参考訳(メタデータ) (2023-01-06T05:51:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。