論文の概要: ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents
- arxiv url: http://arxiv.org/abs/2308.08737v1
- Date: Thu, 17 Aug 2023 02:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:14:06.983534
- Title: ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents
- Title(参考訳): ReProHRL:階層型エージェントを用いた実世界のマルチゴールナビゲーションを目指して
- Authors: Tejaswini Manjunath, Mozhgan Navardi, Prakhar Dixit, Bharat Prakash,
Tinoosh Mohsenin
- Abstract要約: 本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。
また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。
実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
- 参考スコア(独自算出の注目度): 1.3194749469702445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots have been successfully used to perform tasks with high precision. In
real-world environments with sparse rewards and multiple goals, learning is
still a major challenge and Reinforcement Learning (RL) algorithms fail to
learn good policies. Training in simulation environments and then fine-tuning
in the real world is a common approach. However, adapting to the real-world
setting is a challenge. In this paper, we present a method named Ready for
Production Hierarchical RL (ReProHRL) that divides tasks with hierarchical
multi-goal navigation guided by reinforcement learning. We also use object
detectors as a pre-processing step to learn multi-goal navigation and transfer
it to the real world. Empirical results show that the proposed ReProHRL method
outperforms the state-of-the-art baseline in simulation and real-world
environments in terms of both training time and performance. Although both
methods achieve a 100% success rate in a simple environment for single
goal-based navigation, in a more complex environment and multi-goal setting,
the proposed method outperforms the baseline by 18% and 5%, respectively. For
the real-world implementation and proof of concept demonstration, we deploy the
proposed method on a nano-drone named Crazyflie with a front camera to perform
multi-goal navigation experiments.
- Abstract(参考訳): ロボットは高精度なタスクの実行に成功しています。
少ない報酬と複数の目標を持つ現実の環境では、学習は依然として大きな課題であり、強化学習(RL)アルゴリズムは良いポリシーを学ばない。
シミュレーション環境でのトレーニング、そして現実世界での微調整は一般的なアプローチです。
しかし、現実世界の設定に適応することは困難である。
本稿では,強化学習による階層型マルチゴールナビゲーションでタスクを分割する,生産用階層型rl (reprohrl) 法を提案する。
また,オブジェクト検出器を事前処理ステップとして使用して,マルチゴールナビゲーションを学習し,実世界へ転送する。
実験結果から,ReProHRL法は実環境とシミュレーションにおいて,トレーニング時間と性能の両面で,最先端のベースラインよりも優れていた。
いずれの手法も,単一目標ベースナビゲーションの簡単な環境では100%成功率が得られたが,より複雑な環境と多目的設定では,提案手法がベースラインを18%,5%上回った。
実世界の実現と概念実証のために,提案手法をCrazyflieというナノドローンにフロントカメラで展開し,マルチゴールナビゲーション実験を行った。
関連論文リスト
- Multi-Object Navigation in real environments using hybrid policies [18.52681391843433]
本稿では,問題を2つの異なるスキルに分解するハイブリッドナビゲーション手法を提案する。
シミュレーションと実環境の両方において、エンドツーエンドの手法と比較して、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2024-01-24T20:41:25Z) - Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World [46.977470141707315]
シミュレーションにおける最短経路プランナーの模倣は、オブジェクトを巧みにナビゲートし、探索し、操作できるエージェントを生み出すことを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Sim-to-Real Deep Reinforcement Learning with Manipulators for
Pick-and-place [1.7478203318226313]
深層強化学習モデルをシミュレーションから実世界に移す場合、その性能は満足できない。
本稿では,ロボットが物体を効果的に選択・配置できる自己教師型視覚ベースDRL法を提案する。
論文 参考訳(メタデータ) (2023-09-17T11:51:18Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation [75.36145696421038]
Ada-NAVは、ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れているというシミュレーションと実世界のロボット実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。