Fugu-MT 論文翻訳(概要): Hierarchies of Planning and Reinforcement Learning for Robot Navigation

論文の概要: Hierarchies of Planning and Reinforcement Learning for Robot Navigation

arxiv url: http://arxiv.org/abs/2109.11178v1
Date: Thu, 23 Sep 2021 07:18:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-24 14:49:24.233519
Title: Hierarchies of Planning and Reinforcement Learning for Robot Navigation
Title（参考訳）: ロボットナビゲーションのための計画・強化学習の階層化
Authors: Jan W\"ohlke, Felix Schmitt, Herke van Hoof
Abstract要約: 多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
参考スコア（独自算出の注目度）: 22.08479169489373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving robotic navigation tasks via reinforcement learning (RL) is challenging due to their sparse reward and long decision horizon nature. However, in many navigation tasks, high-level (HL) task representations, like a rough floor plan, are available. Previous work has demonstrated efficient learning by hierarchal approaches consisting of path planning in the HL representation and using sub-goals derived from the plan to guide the RL policy in the source task. However, these approaches usually neglect the complex dynamics and sub-optimal sub-goal-reaching capabilities of the robot during planning. This work overcomes these limitations by proposing a novel hierarchical framework that utilizes a trainable planning policy for the HL representation. Thereby robot capabilities and environment conditions can be learned utilizing collected rollout data. We specifically introduce a planning policy based on value iteration with a learned transition model (VI-RL). In simulated robotic navigation tasks, VI-RL results in consistent strong improvement over vanilla RL, is on par with vanilla hierarchal RL on single layouts but more broadly applicable to multiple layouts, and is on par with trainable HL path planning baselines except for a parking task with difficult non-holonomic dynamics where it shows marked improvements.
Abstract（参考訳）: 強化学習(RL)によるロボットナビゲーションタスクの解決は、その細かな報酬と長い意思決定の地平線の性質のために難しい。しかし、多くのナビゲーションタスクでは、粗いフロアプランのように高レベル(HL)タスク表現が利用可能である。これまでの研究は、HL表現における経路計画と、RLポリシーを指示する計画から派生したサブゴールからなる階層的アプローチによる効率的な学習を実証してきた。しかしながら、これらのアプローチは通常、計画中にロボットの複雑なダイナミクスや準最適ゴール取得能力を無視している。この研究は、HL表現のための訓練可能な計画ポリシーを利用する新しい階層的枠組みを提案することによって、これらの制限を克服する。これにより、収集したロールアウトデータを利用してロボット能力と環境条件を学習することができる。具体的には、学習された遷移モデル(VI-RL)を用いた価値反復に基づく計画方針を紹介する。シミュレーションされたロボットナビゲーションタスクでは、VI-RLはバニラRLよりも一貫して改善され、単一のレイアウトではバニラ階層RLと同等であるが、複数のレイアウトではより広く適用でき、トレーニング可能なHLパス計画ベースラインと同等である。

関連論文リスト

Dynamic Path Navigation for Motion Agents with LLM Reasoning [69.5875073447454]
大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。本研究では,LLMのゼロショットナビゲーションと経路生成機能について,データセットの構築と評価プロトコルの提案により検討する。このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。
論文参考訳（メタデータ） (2025-03-10T13:39:09Z)
Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning [17.989467671223043]
RMFSにおける超大規模MRTPのための効率的な多段階HRLベースのマルチロボットタスクプランナを構築した。最適性を確保するため、プランナーは集中型アーキテクチャで設計されているが、スケールアップと一般化の課題ももたらしている。我々のプランナーは、最大200台のロボットと1000台の検索ラックでRMFSの超大規模MRTPインスタンスにスケールアップできる。
論文参考訳（メタデータ） (2024-12-27T09:07:11Z)
Reinforced Imitative Trajectory Planning for Urban Automated Driving [3.2436298824947434]
本稿では,RLと模倣学習を統合して多段階計画を可能にする,RLに基づく新しい軌道計画手法を提案する。都市シナリオにおけるRLに対する効果的な報酬信号を提供する変圧器に基づくベイズ報酬関数を開発した。提案手法は,大規模な都市自動運転 nuPlan データセット上で検証された。
論文参考訳（メタデータ） (2024-10-21T03:04:29Z)
PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。 PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T19:30:08Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文参考訳（メタデータ） (2023-12-30T02:53:45Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文参考訳（メタデータ） (2023-05-12T18:14:32Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)
Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2022-10-06T20:28:55Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Learning to Execute: Efficient Learning of Universal Plan-Conditioned Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文参考訳（メタデータ） (2021-11-15T16:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。