論文の概要: METRA: Scalable Unsupervised RL with Metric-Aware Abstraction
- arxiv url: http://arxiv.org/abs/2310.08887v1
- Date: Fri, 13 Oct 2023 06:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:12:19.403953
- Title: METRA: Scalable Unsupervised RL with Metric-Aware Abstraction
- Title(参考訳): METRA:Metric-Aware Abstractionを備えたスケーラブルな教師なしRL
- Authors: Seohong Park, Oleh Rybkin, Sergey Levine
- Abstract要約: Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
- 参考スコア(独自算出の注目度): 69.90741082762646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised pre-training strategies have proven to be highly effective in
natural language processing and computer vision. Likewise, unsupervised
reinforcement learning (RL) holds the promise of discovering a variety of
potentially useful behaviors that can accelerate the learning of a wide array
of downstream tasks. Previous unsupervised RL approaches have mainly focused on
pure exploration and mutual information skill learning. However, despite the
previous attempts, making unsupervised RL truly scalable still remains a major
open challenge: pure exploration approaches might struggle in complex
environments with large state spaces, where covering every possible transition
is infeasible, and mutual information skill learning approaches might
completely fail to explore the environment due to the lack of incentives. To
make unsupervised RL scalable to complex, high-dimensional environments, we
propose a novel unsupervised RL objective, which we call Metric-Aware
Abstraction (METRA). Our main idea is, instead of directly covering the entire
state space, to only cover a compact latent space $Z$ that is metrically
connected to the state space $S$ by temporal distances. By learning to move in
every direction in the latent space, METRA obtains a tractable set of diverse
behaviors that approximately cover the state space, being scalable to
high-dimensional environments. Through our experiments in five locomotion and
manipulation environments, we demonstrate that METRA can discover a variety of
useful behaviors even in complex, pixel-based environments, being the first
unsupervised RL method that discovers diverse locomotion behaviors in
pixel-based Quadruped and Humanoid. Our code and videos are available at
https://seohong.me/projects/metra/
- Abstract(参考訳): 教師なし事前学習戦略は自然言語処理やコンピュータビジョンにおいて非常に効果的であることが証明されている。
同様に、教師なし強化学習(RL)は、幅広い下流タスクの学習を加速できる様々な潜在的に有用な行動を発見するという約束を持っている。
従来の教師なしRLアプローチは主に純粋探索と相互情報スキル学習に重点を置いてきた。
しかし、以前の試みにもかかわらず、教師なしのrlを本当にスケーラブルにすることは、まだ大きな課題である。純粋な探索アプローチは、大きな状態空間を持つ複雑な環境では困難であり、すべての可能な移行をカバーすることは不可能であり、相互情報スキル学習アプローチは、インセンティブの欠如により、環境の探索に完全に失敗する可能性がある。
複雑な高次元環境に対して,教師なしRLをスケーラブルにするために,Metric-Aware Abstraction (METRA) と呼ばれる新しい教師なしRL目標を提案する。
私たちの主なアイデアは、状態空間全体を直接覆うのではなく、時間距離によって状態空間と計量的に接続されるコンパクトな潜在空間$z$だけをカバーすることです。
潜在空間のあらゆる方向に移動することを学ぶことで、metraは、状態空間をほぼカバーする、高次元環境にスケーラブルな様々な行動の扱いやすい集合を得る。
5つのロコモーションと操作環境で行った実験を通じて、metraは複雑なピクセルベースの環境でも様々な有用な振る舞いを発見できることを実証し、ピクセルベースの四足歩行とヒューマノイドにおいて、様々なロコモーション行動を検出する最初の教師なしrl法である。
私たちのコードとビデオはhttps://seohong.me/projects/metra/で閲覧できます。
関連論文リスト
- Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Discrete Control in Real-World Driving Environments using Deep
Reinforcement Learning [2.467408627377504]
本研究では,現実の環境をゲーム環境に移行させる,現実の運転環境におけるフレームワーク(知覚,計画,制御)を紹介する。
実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。
論文 参考訳(メタデータ) (2022-11-29T04:24:03Z) - Guaranteed Discovery of Controllable Latent States with Multi-Step
Inverse Models [51.754160866582005]
エージェント制御可能な状態探索アルゴリズム(AC-State)
アルゴリズムは多段階の逆モデル(遠方の観測から行動を予測する)と情報ボトルネックから構成される。
本稿では,3つの領域において制御可能な潜伏状態の発見を実証する。ロボットアームの局所化,他のエージェントとともに迷路を探索し,Matterportハウスシミュレーターをナビゲートする。
論文 参考訳(メタデータ) (2022-07-17T17:06:52Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。