論文の概要: PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
- arxiv url: http://arxiv.org/abs/2406.20083v1
- Date: Fri, 28 Jun 2024 17:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:01:13.064186
- Title: PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
- Title(参考訳): PoliFormer: マスタフルナビゲータにおけるトランスフォーマーによるオンラインRLのスケーリング
- Authors: Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs,
- Abstract要約: PoliFormerはRGBのみの屋内ナビゲーションエージェントで、エンドツーエンドでトレーニングされ、大規模に強化学習を行う。
シミュレーションで純粋に訓練されているにもかかわらず、適応せずに現実世界に一般化する。
- 参考スコア(独自算出の注目度): 32.937445793499776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PoliFormer (Policy Transformer), an RGB-only indoor navigation agent trained end-to-end with reinforcement learning at scale that generalizes to the real-world without adaptation despite being trained purely in simulation. PoliFormer uses a foundational vision transformer encoder with a causal transformer decoder enabling long-term memory and reasoning. It is trained for hundreds of millions of interactions across diverse environments, leveraging parallelized, multi-machine rollouts for efficient training with high throughput. PoliFormer is a masterful navigator, producing state-of-the-art results across two distinct embodiments, the LoCoBot and Stretch RE-1 robots, and four navigation benchmarks. It breaks through the plateaus of previous work, achieving an unprecedented 85.5% success rate in object goal navigation on the CHORES-S benchmark, a 28.5% absolute improvement. PoliFormer can also be trivially extended to a variety of downstream applications such as object tracking, multi-object navigation, and open-vocabulary navigation with no finetuning.
- Abstract(参考訳): 本稿では、RGBのみの屋内ナビゲーションエージェントであるPooliFormer(Policy Transformer)について、シミュレーションで純粋に訓練されているにもかかわらず、適応せずに現実世界に一般化する大規模強化学習でエンドツーエンドに訓練した。
PoliFormerは、長期記憶と推論を可能にする因果変換器デコーダを備えた基礎的な視覚変換器エンコーダを使用する。
並列化されたマルチマシンのロールアウトを活用して、高いスループットで効率的なトレーニングを行う。
PoliFormerは熟練したナビゲータであり、LoCoBotとStretch RE-1ロボットと4つのナビゲーションベンチマークという2つの異なる実施形態で最先端の結果を生成する。
これは、CHORES-Sベンチマークでの目標ナビゲーションにおいて、前例のない85.5%の成功率を達成し、28.5%の絶対的な改善を実現した。
PoliFormerは、オブジェクトトラッキング、マルチオブジェクトナビゲーション、オープン語彙ナビゲーションなど、さまざまなダウンストリームアプリケーションにも、微調整なしで簡単に拡張できる。
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Learning Vision-Guided Quadrupedal Locomotion End-to-End with
Cross-Modal Transformers [14.509254362627576]
強化学習(RL)を用いた四足歩行課題への取り組みを提案する。
四足歩行のためのエンドツーエンドRL法であるLocoTransformerを導入する。
論文 参考訳(メタデータ) (2021-07-08T17:41:55Z) - An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation [6.660458629649825]
最近リリースされたhabitatのようなフォトリアリスティックシミュレータは、知覚から直接制御アクションを出力するネットワークのトレーニングを可能にする。
本稿では,知覚の訓練とニューラルネットの制御を分離し,経路の複雑さを徐々に増すことにより,この問題を克服しようとする。
論文 参考訳(メタデータ) (2021-01-05T20:35:14Z) - Visual Navigation in Real-World Indoor Environments Using End-to-End
Deep Reinforcement Learning [2.7071541526963805]
そこで本研究では,実際のロボットにトレーニング済みポリシーを直接展開する手法を提案する。
このポリシーは、現実世界の環境から収集された画像に基づいて微調整される。
30回のナビゲーション実験では、このロボットは86.7%以上のケースで目標の0.3メートル付近に到達した。
論文 参考訳(メタデータ) (2020-10-21T11:22:30Z) - Embodied Visual Navigation with Automatic Curriculum Learning in Real
Environments [20.017277077448924]
NavACLは、ナビゲーションタスクに適した自動カリキュラム学習の方法である。
NavACLを用いて訓練した深層強化学習剤は、均一サンプリングで訓練した最先端エージェントよりも有意に優れていた。
我々のエージェントは、未知の乱雑な屋内環境から、RGB画像のみを使用して意味的に特定されたターゲットへ移動することができる。
論文 参考訳(メタデータ) (2020-09-11T13:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。