論文の概要: Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments
- arxiv url: http://arxiv.org/abs/2509.06953v1
- Date: Mon, 08 Sep 2025 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.309052
- Title: Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments
- Title(参考訳): Deep Reactive Policy: 動的環境のためのリアクティブマニピュレータの動作計画学習
- Authors: Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak,
- Abstract要約: ディープ・リアクティブ・ポリシー(Deep Reactive Policy)は、様々な動的環境でのリアクティブ・モーション・ジェネレーションのために設計された、ヴィジュオ・モーター・ニューラル・モーション・ポリシーである。
IMPACTは、トランスフォーマーをベースとしたニューラルモーションポリシーで、1000万の生成された専門家の軌道で事前訓練されている。
DCP-RMP(DCP-RMP)を用いて,インジェクション時間におけるIMPACTの動的障害物回避を強化した。
- 参考スコア(独自算出の注目度): 35.192151100313836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP), a visuo-motor neural motion policy designed for reactive motion generation in diverse dynamic environments, operating directly on point cloud sensory input. At its core is IMPACT, a transformer-based neural motion policy pretrained on 10 million generated expert trajectories across diverse simulation scenarios. We further improve IMPACT's static obstacle avoidance through iterative student-teacher finetuning. We additionally enhance the policy's dynamic obstacle avoidance at inference time using DCP-RMP, a locally reactive goal-proposal module. We evaluate DRP on challenging tasks featuring cluttered scenes, dynamic moving obstacles, and goal obstructions. DRP achieves strong generalization, outperforming prior classical and neural methods in success rate across both simulated and real-world settings. Video results and code available at https://deep-reactive-policy.com
- Abstract(参考訳): 動的で部分的に観測可能な環境での衝突のない運動の生成は、ロボットマニピュレータの基本的な課題である。
古典的な運動プランナーは、グローバルに最適な軌道を計算することができるが、完全な環境知識が必要であり、通常はダイナミックなシーンでは遅すぎる。
ニューラルモーションポリシーは、生の知覚入力を直接クローズドループで操作することで、有望な代替手段を提供するが、複雑または動的設定での一般化に苦慮することが多い。
本稿では,多様な動的環境下での反応運動生成を目的とし,ポイントクラウドのセンサ入力を直接操作するビジュオモータ型ニューラルモーションポリシーであるDeep Reactive Policy (DRP)を提案する。
IMPACTはトランスフォーマーベースのニューラルモーションポリシーで、様々なシミュレーションシナリオで1000万の生成された専門家軌道を事前訓練している。
我々は、反復的な生徒-教師の微調整によりIMPACTの静的障害物回避をさらに改善する。
さらに,DCP-RMP(ローカルなリアクティブなゴール-プロポーサルモジュール)を用いて,推論時間におけるポリシーの動的障害物回避も強化する。
我々は,散らばったシーン,動的移動障害物,目標障害物を特徴とする課題に対するDRPの評価を行った。
DRPは、シミュレーションと実世界の両方の設定で成功率において、従来の古典的およびニューラルな手法よりも優れた、強力な一般化を実現する。
Video results and code available at https://deep-reactive-policy.com
関連論文リスト
- Towards Learning Scalable Agile Dynamic Motion Planning for Robosoccer Teams with Policy Optimization [0.0]
障害物の存在下でのマルチエージェントシステムの動的運動計画は普遍的で未解決な問題である。
本稿では,学習に基づく動的ナビゲーションモデルを提案し,シンプルなRobosoccer Gameの概念を用いて,シンプルな環境で動作するモデルを示す。
論文 参考訳(メタデータ) (2025-02-08T11:13:07Z) - Dynamic Neural Potential Field: Online Trajectory Optimization in Presence of Moving Obstacles [40.8414230686474]
本研究では,静的・動的障害物の存在下での移動ロボットの局所軌道計画の課題に対処する。
ニューラルモデルにより反発電位を推定する手法を開発する。
我々は,提案するMPC局所軌道プランナーの下で,オフィス廊下を移動するHusky UGVモバイルプラットフォームにアプローチを展開させる。
論文 参考訳(メタデータ) (2024-10-09T12:27:09Z) - FLD: Fourier Latent Dynamics for Structured Motion Representation and
Learning [19.491968038335944]
本研究では,周期的・準周期的な動きの時空間関係を抽出する自己教師付き構造表現生成手法を提案する。
我々の研究は、一般的な動き表現と学習アルゴリズムの今後の進歩への新たな可能性を開く。
論文 参考訳(メタデータ) (2024-02-21T13:59:21Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。