論文の概要: Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at
100k Steps-Per-Second
- arxiv url: http://arxiv.org/abs/2306.07552v1
- Date: Tue, 13 Jun 2023 05:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:49:35.382882
- Title: Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at
100k Steps-Per-Second
- Title(参考訳): galactic: エンド・ツー・エンドの強化学習を1kステップ/秒で再構築する
- Authors: Vincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron
Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander
- Abstract要約: 室内環境におけるロボット移動操作のための大規模シミュレーションおよび強化学習フレームワークであるGalacticを提案する。
ホーム環境では、Fetchロボット(移動体ベース、7DoFアーム、RGBDカメラ、エゴモーション、オンボードセンシング)が生成され、オブジェクトの再配置が求められる。
銀河は速い
これはHabitat 2.0で同じスキルをトレーニングするのに24時間以上かかるのと比べて100倍のスピードアップだ。
- 参考スコア(独自算出の注目度): 47.15358721760487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Galactic, a large-scale simulation and reinforcement-learning (RL)
framework for robotic mobile manipulation in indoor environments. Specifically,
a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion,
and onboard sensing) is spawned in a home environment and asked to rearrange
objects - by navigating to an object, picking it up, navigating to a target
location, and then placing the object at the target location.
Galactic is fast. In terms of simulation speed (rendering + physics),
Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which
is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was
designed to optimize the entire rendering + physics + RL interplay since any
bottleneck in the interplay slows down training. In terms of simulation+RL
speed (rendering + physics + inference + learning), Galactic achieves over
108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS).
These massive speed-ups not only drastically cut the wall-clock training time
of existing experiments, but also unlock an unprecedented scale of new
experiments. First, Galactic can train a mobile pick skill to >80% accuracy in
under 16 minutes, a 100x speedup compared to the over 24 hours it takes to
train the same skill in Habitat 2.0. Second, we use Galactic to perform the
largest-scale experiment to date for rearrangement using 5B steps of experience
in 46 hours, which is equivalent to 20 years of robot experience. This scaling
results in a single neural network composed of task-agnostic components
achieving 85% success in GeometricGoal rearrangement, compared to 0% success
reported in Habitat 2.0 for the same approach. The code is available at
github.com/facebookresearch/galactic.
- Abstract(参考訳): 室内環境におけるロボット移動操作のための大規模シミュレーションおよび強化学習(RL)フレームワークであるGalacticを提案する。
具体的には、ホーム環境でフェッチロボット(移動ベース、7dofアーム、rgbdカメラ、エゴモーション、オンボードセンシングを備える)を発生させ、オブジェクトにナビゲートし、それをピックアップし、ターゲットロケーションにナビゲートし、ターゲットロケーションにオブジェクトを配置することで、オブジェクトの並べ替えを依頼する。
銀河は速い。
シミュレーション速度(レンダリング+物理)に関しては、Habitat 2.0(7699 SPS)の54倍高速である8GPUノードで421,000ステップ/秒(SPS)を超える。
さらに重要なのは、Galacticはレンダリングと物理とRLのインタープレイ全体を最適化するために設計されたことだ。
シミュレーション+RL速度(レンダリング+物理+推論+学習)では、Habitat 2.0 (1243 SPS)の88倍の108,000 SPSを達成している。
これらの大規模なスピードアップは、既存の実験のウォールクロックのトレーニング時間を劇的に短縮するだけでなく、前例のない規模の新しい実験を解放する。
まず、gamicはモバイルのピックスキルを16分以内に80%の精度でトレーニングできる。これは、habitat 2.0で同じスキルをトレーニングするのに24時間以上かかったことに比べて、100倍のスピードアップだ。
第2に、ギャラクティックは、46時間で5bのステップで、これまでで最大の再配置実験を行い、これは20年間のロボットの経験に相当する。
このスケーリングによって、1つのニューラルネットワークがタスクに依存しないコンポーネントで構成され、GeometricGoalの再配置で85%の成功を達成した。
コードはgithub.com/facebookresearch/galacticで入手できる。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - VER: Scaling On-Policy RL Leads to the Emergence of Navigation in
Embodied Rearrangement [44.005956312664615]
異種環境下でのバッチ化されたオンライン強化学習を効率的にスケールアップする技術である可変体験ロールアウト(VER)を提案する。
VERは、広範囲の組み込みナビゲーションとモバイル操作タスクにおいて、大幅な、一貫したスピードアップにつながる。
目に見えるようなナビゲーションを必要としないスキルにおいて、ナビゲーションが驚くほど出現していることに気付きました。
論文 参考訳(メタデータ) (2022-10-11T00:27:02Z) - Inferring halo masses with Graph Neural Networks [0.5804487044220691]
我々は、ハローの位置、速度、恒星の質量、銀河の半径を推定するモデルを構築します。
我々は不規則でスパースなデータを扱うように設計されたグラフニューラルネットワーク(GNN)を使用している。
我々のモデルでは、ハロの質量を$sim$0.2 dexの精度で制限することができる。
論文 参考訳(メタデータ) (2021-11-16T18:37:53Z) - Megaverse: Simulating Embodied Agents at One Million Experiences per
Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。
MegaverseはDeepMind Labより最大70倍速い。
私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2021-07-17T03:16:25Z) - Habitat 2.0: Training Home Assistants to Rearrange their Habitat [122.54624752876276]
インタラクティブな3D環境で仮想ロボットを訓練するためのシミュレーションプラットフォームHabitat 2.0(H2.0)を紹介する。
エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスク – にコントリビューションを行います。
論文 参考訳(メタデータ) (2021-06-28T05:42:15Z) - Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文 参考訳(メタデータ) (2020-11-07T16:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。