論文の概要: Towards real-world navigation with deep differentiable planners
- arxiv url: http://arxiv.org/abs/2108.05713v1
- Date: Sun, 8 Aug 2021 11:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:46:29.188387
- Title: Towards real-world navigation with deep differentiable planners
- Title(参考訳): 深分化型プランナーによる現実世界のナビゲーションに向けて
- Authors: Shu Ishida, Jo\~ao F. Henriques
- Abstract要約: 私たちは、見えない複雑な3D環境を計画し、ナビゲートするために、具体的ニューラルネットワークを訓練します。
安全な専門家によるデモンストレーションからオフラインでトレーニングされたバリューイテレーションネットワーク(VIN)など、さまざまなプランナに重点を置いています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train embodied neural networks to plan and navigate unseen complex 3D
environments, emphasising real-world deployment. Rather than requiring prior
knowledge of the agent or environment, the planner learns to model the state
transitions and rewards. To avoid the potentially hazardous trial-and-error of
reinforcement learning, we focus on differentiable planners such as Value
Iteration Networks (VIN), which are trained offline from safe expert
demonstrations. Although they work well in small simulations, we address two
major limitations that hinder their deployment. First, we observed that current
differentiable planners struggle to plan long-term in environments with a high
branching complexity. While they should ideally learn to assign low rewards to
obstacles to avoid collisions, we posit that the constraints imposed on the
network are not strong enough to guarantee the network to learn sufficiently
large penalties for every possible collision. We thus impose a structural
constraint on the value iteration, which explicitly learns to model any
impossible actions. Secondly, we extend the model to work with a limited
perspective camera under translation and rotation, which is crucial for real
robot deployment. Many VIN-like planners assume a 360 degrees or overhead view
without rotation. In contrast, our method uses a memory-efficient lattice map
to aggregate CNN embeddings of partial observations, and models the rotational
dynamics explicitly using a 3D state-space grid (translation and rotation). Our
proposals significantly improve semantic navigation and exploration on several
2D and 3D environments, succeeding in settings that are otherwise challenging
for this class of methods. As far as we know, we are the first to successfully
perform differentiable planning on the difficult Active Vision Dataset,
consisting of real images captured from a robot.
- Abstract(参考訳): 私たちは、複雑な3d環境を計画し、ナビゲートするために具体化されたニューラルネットワークを訓練します。
エージェントや環境の事前知識を必要とするのではなく、プランナーは状態遷移と報酬をモデル化することを学ぶ。
強化学習の潜在的に危険な試行錯誤を避けるため、安全な専門家によるデモンストレーションからオフラインでトレーニングされたバリューイテレーションネットワーク(VIN)のような、さまざまなプランナに焦点を当てる。
小さなシミュレーションではうまく動作しますが、デプロイを妨げる2つの大きな制限に対処します。
まず、現在の異なるプランナーは、分岐の複雑さが高い環境で長期計画に苦慮している。
衝突を避けるために障害に対して低い報酬を課すことを理想的に学ばなければならないが、ネットワークに課される制約は、衝突するたびに十分に大きな罰則を学べるほど強力ではないと仮定する。
したがって、バリューイテレーションに構造的な制約を課し、不可能でないアクションを明示的にモデル化することを学びます。
第二に、ロボットの実際の展開に欠かせない翻訳と回転の下で、限られた視点カメラで動くようにモデルを拡張する。
多くのVINライクなプランナーは回転なしで360度またはオーバーヘッドビューを仮定する。
対照的に,本手法はメモリ効率のよい格子マップを用いて部分観測のCNN埋め込みを集約し,3次元状態空間格子(翻訳と回転)を明示的にモデル化する。
提案手法は,いくつかの2次元および3次元環境における意味的ナビゲーションと探索を大幅に改善する。
知る限りでは、ロボットからキャプチャーされた実際の画像からなる難しいActive Vision Datasetにおいて、私たちは初めて、差別化可能な計画を実行しました。
関連論文リスト
- Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe
Quadruped Navigation [1.2783783498844021]
典型的なSOTAシステムは、マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラの4つの主要モジュールで構成されている。
我々は,グローバルプランナから粗い計画経路を追跡するためのベロシティプランを生成するために,ロバストで安全なローカルプランナを構築している。
この枠組みを用いることで、四足歩行ロボットは衝突なしに様々な複雑な環境を自律的に移動でき、ベースライン法と比較してスムーズなコマンドプランを生成することができる。
論文 参考訳(メタデータ) (2022-04-19T04:01:44Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - End-to-End Partially Observable Visual Navigation in a Diverse
Environment [30.895264166384685]
本研究の目的は, (i) 複雑な視覚観察, (ii) 局所センシングの部分観測可能性, (iii) マルチモーダルナビゲーションの3つの課題である。
ローカルコントローラを表現するニューラルネットワーク(NN)アーキテクチャを提案し,エンドツーエンドアプローチの柔軟性を活用して強力なポリシを学習する。
本研究では,SPOTロボットにNNコントローラを実装し,部分観察を行う3つの課題について評価する。
論文 参考訳(メタデータ) (2021-09-16T06:53:57Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。