論文の概要: VER: Scaling On-Policy RL Leads to the Emergence of Navigation in
Embodied Rearrangement
- arxiv url: http://arxiv.org/abs/2210.05064v1
- Date: Tue, 11 Oct 2022 00:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 13:44:19.484187
- Title: VER: Scaling On-Policy RL Leads to the Emergence of Navigation in
Embodied Rearrangement
- Title(参考訳): VER: オンラインRLのスケーリングは、身体的再配置におけるナビゲーションの創発につながる
- Authors: Erik Wijmans and Irfan Essa and Dhruv Batra
- Abstract要約: 異種環境下でのバッチ化されたオンライン強化学習を効率的にスケールアップする技術である可変体験ロールアウト(VER)を提案する。
VERは、広範囲の組み込みナビゲーションとモバイル操作タスクにおいて、大幅な、一貫したスピードアップにつながる。
目に見えるようなナビゲーションを必要としないスキルにおいて、ナビゲーションが驚くほど出現していることに気付きました。
- 参考スコア(独自算出の注目度): 44.005956312664615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Variable Experience Rollout (VER), a technique for efficiently
scaling batched on-policy reinforcement learning in heterogenous environments
(where different environments take vastly different times to generate rollouts)
to many GPUs residing on, potentially, many machines. VER combines the
strengths of and blurs the line between synchronous and asynchronous on-policy
RL methods (SyncOnRL and AsyncOnRL, respectively). VER learns from on-policy
experience (like SyncOnRL) and has no synchronization points (like AsyncOnRL).
VER leads to significant and consistent speed-ups across a broad range of
embodied navigation and mobile manipulation tasks in photorealistic 3D
simulation environments. Specifically, for PointGoal navigation and ObjectGoal
navigation in Habitat 1.0, VER is 60-100% faster (1.6-2x speedup) than DD-PPO,
the current state of art distributed SyncOnRL, with similar sample efficiency.
For mobile manipulation tasks (open fridge/cabinet, pick/place objects) in
Habitat 2.0 VER is 150% faster (2.5x speedup) on 1 GPU and 170% faster (2.7x
speedup) on 8 GPUs than DD-PPO. Compared to SampleFactory (the current
state-of-the-art AsyncOnRL), VER matches its speed on 1 GPU, and is 70% faster
(1.7x speedup) on 8 GPUs with better sample efficiency.
We leverage these speed-ups to train chained skills for GeometricGoal
rearrangement tasks in the Home Assistant Benchmark (HAB). We find a surprising
emergence of navigation in skills that do not ostensible require any
navigation. Specifically, the Pick skill involves a robot picking an object
from a table. During training the robot was always spawned close to the table
and never needed to navigate. However, we find that if base movement is part of
the action space, the robot learns to navigate then pick an object in new
environments with 50% success, demonstrating surprisingly high
out-of-distribution generalization.
- Abstract(参考訳): 我々は、異種環境(異なる環境がロールアウトを生成するのに非常に異なる時間を要する)において、バッチ化されたオンライン強化学習を効率的にスケールする技術であるVariable Experience Rollout(VER)を紹介します。
VERは同期型と非同期型のRLメソッド(SyncOnRLとAsyncOnRL)の長所と短所を組み合わせたものだ。
VERは(SyncOnRLのような)政治上の経験から学び、(AsyncOnRLのような)同期ポイントを持たない。
VERは、フォトリアリスティックな3Dシミュレーション環境において、幅広いエンボディナビゲーションとモバイル操作タスクにおいて、大幅な、一貫したスピードアップをもたらす。
具体的には、habitat 1.0におけるpointgoal navigationとobjectgoal navigationにおいて、verはdd-ppoよりも60-100%高速(1.6-2倍のスピードアップ)である。
Habitat 2.0のモバイル操作タスク(オープン冷蔵庫/キャビネット、ピック/プレースオブジェクト)では、1GPUでは150%(2.5倍)、DD-PPOより170%(2.7倍)高速である。
SampleFactory(現在の技術であるAsyncOnRL)と比較すると、VERは1GPU上での速度と一致し、8GPUで70%高速(1.7倍のスピードアップ)でサンプリング効率が向上している。
これらのスピードアップを利用して、Home Assistant Benchmark(HAB)におけるGeometricGoal再構成タスクのチェーンスキルをトレーニングする。
目立たないスキルでナビゲーションが驚くほど現れるのに、ナビゲーションは一切必要ありません。
特にピックスキルには、ロボットがテーブルからオブジェクトを拾うことが含まれる。
トレーニング中、ロボットは常にテーブルの近くに産み出され、ナビゲートする必要はなかった。
しかし、ベースムーブメントがアクションスペースの一部である場合、ロボットはナビゲートを学び、50%の成功で新しい環境でオブジェクトを選択し、驚くほど高い分散の一般化を示す。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - Habitat 2.0: Training Home Assistants to Rearrange their Habitat [122.54624752876276]
インタラクティブな3D環境で仮想ロボットを訓練するためのシミュレーションプラットフォームHabitat 2.0(H2.0)を紹介する。
エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスク – にコントリビューションを行います。
論文 参考訳(メタデータ) (2021-06-28T05:42:15Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Auxiliary Tasks Speed Up Learning PointGoal Navigation [41.820289202253235]
PointGoal Navigationは、エージェントが見えない環境で指定されたポイントにナビゲートする必要がある、具体化されたタスクである。
本研究では,自己指導型補助タスクを用いたPointNav学習において,サンプルと時間効率を大幅に向上させる手法を開発した。
我々のベストエージェントは従来のDD-PPOを40Mフレームで5.5倍高速化し、DD-PPOの性能を0.16SPLで向上させる。
論文 参考訳(メタデータ) (2020-07-09T05:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。