Fugu-MT 論文翻訳(概要): DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation

論文の概要: DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation

arxiv url: http://arxiv.org/abs/2410.10646v1
Date: Mon, 14 Oct 2024 15:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 20:25:02.382029
Title: DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation
Title（参考訳）: DR-MPC:現実世界のソーシャルナビゲーションのための奥行きモデル予測制御
Authors: James R. Han, Hugues Thomas, Jian Zhang, Nicholas Rhinehart, Timothy D. Barfoot,
Abstract要約: Deep Residual Model Predictive Control (DR-MPC)は、ロボットが現実世界の群衆のナビゲーションデータからDRLを安全に実行できるようにする方法である。 DR-MPCは、MPCベースの経路追跡を持ち、徐々に人間とより効果的に対話することを学ぶ。シミュレーションでは,DR-MPCは従来のDRLモデルや残留DRLモデルなど,従来よりも大幅に優れていた。
参考スコア（独自算出の注目度）: 20.285659649785224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How can a robot safely navigate around people exhibiting complex motion patterns? Reinforcement Learning (RL) or Deep RL (DRL) in simulation holds some promise, although much prior work relies on simulators that fail to precisely capture the nuances of real human motion. To address this gap, we propose Deep Residual Model Predictive Control (DR-MPC), a method to enable robots to quickly and safely perform DRL from real-world crowd navigation data. By blending MPC with model-free DRL, DR-MPC overcomes the traditional DRL challenges of large data requirements and unsafe initial behavior. DR-MPC is initialized with MPC-based path tracking, and gradually learns to interact more effectively with humans. To further accelerate learning, a safety component estimates when the robot encounters out-of-distribution states and guides it away from likely collisions. In simulation, we show that DR-MPC substantially outperforms prior work, including traditional DRL and residual DRL models. Real-world experiments show our approach successfully enables a robot to navigate a variety of crowded situations with few errors using less than 4 hours of training data.
Abstract（参考訳）: ロボットは、複雑な動きのパターンを示す人々を安全にナビゲートできるのか? シミュレーションにおける強化学習(Reinforcement Learning、RL)やDeep RL(DRL)は、実際の人間の動きのニュアンスを正確に捉えることができないシミュレータに依存するが、いくつかの約束がある。このギャップに対処するために,現実の群衆ナビゲーションデータからロボットがDRLを迅速かつ安全に実行できるようにするためのDR-MPC(Deep Residual Model Predictive Control)を提案する。 MPCとモデルフリーDRLを組み合わせることで、DR-MPCは大規模なデータ要求と安全でない初期動作という従来のDRL課題を克服する。 DR-MPCは、MPCベースの経路追跡と初期化され、徐々に人間とより効果的に対話することを学ぶ。さらに学習を加速するため、安全コンポーネントは、ロボットがアウト・オブ・ディストリビューション状態に遭遇したときを推定し、衝突の可能性から引き離す。シミュレーションでは,DR-MPCは従来のDRLモデルや残留DRLモデルなど,従来よりも大幅に優れていた。実世界の実験では、ロボットが4時間未満のトレーニングデータを使って、少ないエラーでさまざまな混み合った状況をナビゲートできることを示す。

関連論文リスト

Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Compressing Deep Reinforcement Learning Networks with a Dynamic Structured Pruning Method for Autonomous Driving [63.155562267383864]
深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。 DRLモデルは、必然的に高いメモリ消費と計算をもたらし、リソース限定の自動運転デバイスへの広範な展開を妨げる。そこで本研究では,DRLモデルの非重要なニューロンを段階的に除去する,新しい動的構造化プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-07T09:00:30Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
PathRL: An End-to-End Path Generation Method for Collision Avoidance via Deep Reinforcement Learning [16.397594417992483]
本稿では,ロボットのナビゲーション経路を生成するためのポリシーをトレーニングする新しいDRL手法であるPathRLを提案する。実験では,他のDRLナビゲーション法と比較して,PathRLは良好な成功率を示し,角度可変性を低下させる。
論文参考訳（メタデータ） (2023-10-20T05:55:13Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文参考訳（メタデータ） (2023-09-22T17:59:14Z)
A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文参考訳（メタデータ） (2023-09-13T13:18:29Z)
FastRLAP: A System for Learning High-Speed Driving via Deep RL and Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文参考訳（メタデータ） (2023-04-19T17:33:47Z)
Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文参考訳（メタデータ） (2023-03-07T08:16:46Z)
DDPG car-following model with real-world human driving experience in CARLA [0.0]
そこで本研究では,現実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現する2段階のDeep Reinforcement Learning(DRL)手法を提案する。評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。
論文参考訳（メタデータ） (2021-12-29T15:22:31Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
Robust Reinforcement Learning-based Autonomous Driving Agent for Simulation and Real World [0.0]
本稿では,Deep Q-Networks (DQN) を用いた自律型ロボット制御を実現するDRLベースのアルゴリズムを提案する。本手法では,エージェントはシミュレーション環境で訓練され,シミュレーション環境と実環境環境の両方をナビゲートすることができる。トレーニングされたエージェントは限られたハードウェアリソース上で動作することができ、そのパフォーマンスは最先端のアプローチに匹敵する。
論文参考訳（メタデータ） (2020-09-23T15:23:54Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文参考訳（メタデータ） (2020-05-12T12:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。