論文の概要: Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation
- arxiv url: http://arxiv.org/abs/2202.01069v1
- Date: Wed, 2 Feb 2022 15:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:50:41.286471
- Title: Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation
- Title(参考訳): 複数の中間レベル表現による実環境における画像ベースナビゲーション:融合モデル、ベンチマークおよび効率的な評価
- Authors: Marco Rosano (1 and 3), Antonino Furnari (1 and 5), Luigi Gulino (3),
Corrado Santoro (2), Giovanni Maria Farinella (1 and 4 and 5) ((1) FPV@IPLAB
- Department of Mathematics and Computer Science - University of Catania -
Italy, (2) Robotics Laboratory - Department of Mathematics and Computer
Science - University of Catania - Italy, (3) OrangeDev s.r.l. - Firenze -
Italy, (4) Cognitive Robotics and Social Sensing Laboratory - ICAR-CNR -
Palermo - Italy, (5) Next Vision s.r.l. - Catania - Italy)
- Abstract要約: 近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Navigating complex indoor environments requires a deep understanding of the
space the robotic agent is acting into to correctly inform the navigation
process of the agent towards the goal location. In recent learning-based
navigation approaches, the scene understanding and navigation abilities of the
agent are achieved simultaneously by collecting the required experience in
simulation. Unfortunately, even if simulators represent an efficient tool to
train navigation policies, the resulting models often fail when transferred
into the real world. One possible solution is to provide the navigation model
with mid-level visual representations containing important domain-invariant
properties of the scene. But, what are the best representations that facilitate
the transfer of a model to the real-world? How can they be combined? In this
work we address these issues by proposing a benchmark of Deep Learning
architectures to combine a range of mid-level visual representations, to
perform a PointGoal navigation task following a Reinforcement Learning setup.
All the proposed navigation models have been trained with the Habitat simulator
on a synthetic office environment and have been tested on the same real-world
environment using a real robotic platform. To efficiently assess their
performance in a real context, a validation tool has been proposed to generate
realistic navigation episodes inside the simulator. Our experiments showed that
navigation models can benefit from the multi-modal input and that our
validation tool can provide good estimation of the expected navigation
performance in the real world, while saving time and resources. The acquired
synthetic and real 3D models of the environment, together with the code of our
validation tool built on top of Habitat, are publicly available at the
following link: https://iplab.dmi.unict.it/EmbodiedVN/
- Abstract(参考訳): 複雑な屋内環境をナビゲートするには、ロボットエージェントが行動している空間の深い理解が必要となる。
近年の学習に基づくナビゲーション手法では,シミュレーションに必要な経験を収集し,エージェントのシーン理解とナビゲーション能力を同時に実現している。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
考えられる解決策の1つは、シーンの重要なドメイン不変特性を含む中間レベルの視覚的表現を持つナビゲーションモデルを提供することである。
しかし、モデルから実世界への転送を促進する最良の表現は何ですか?
どのように組み合わせられるのか?
本研究では,ディープラーニングアーキテクチャのベンチマークを用いて,さまざまな中間レベルの視覚表現を組み合わせて,強化学習のセットアップに従ってPointGoalナビゲーションタスクを実行することで,これらの課題に対処する。
提案するナビゲーションモデルはすべて、合成オフィス環境における居住環境シミュレータを用いて訓練され、実際のロボットプラットフォームを使用して同じ実環境上でテストされている。
実環境での性能を効率的に評価するために,シミュレータ内で現実的なナビゲーションエピソードを生成するための検証ツールが提案されている。
実験の結果,ナビゲーションモデルはマルチモーダル入力の恩恵を受けることができ,検証ツールにより実世界のナビゲーション性能を予測できるとともに,時間と資源を節約できることがわかった。
Habitat上に構築されたバリデーションツールのコードとともに、取得した環境の3Dモデルと実際の3Dモデルが、以下のリンクで公開されている。
関連論文リスト
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。
本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文 参考訳(メタデータ) (2020-10-27T18:22:43Z) - On Embodied Visual Navigation in Real Environments Through Habitat [20.630139085937586]
ディープラーニングに基づくビジュアルナビゲーションモデルは、大量の視覚的観察に基づいてトレーニングされた場合、効果的なポリシーを学ぶことができる。
この制限に対処するため、仮想環境における視覚ナビゲーションポリシーを効率的に訓練するためのシミュレーションプラットフォームがいくつか提案されている。
本研究では,実世界の航法ピソードを走らせることなく,実世界の観測における航法方針の訓練と評価を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-10-26T09:19:07Z) - Embodied Visual Navigation with Automatic Curriculum Learning in Real
Environments [20.017277077448924]
NavACLは、ナビゲーションタスクに適した自動カリキュラム学習の方法である。
NavACLを用いて訓練した深層強化学習剤は、均一サンプリングで訓練した最先端エージェントよりも有意に優れていた。
我々のエージェントは、未知の乱雑な屋内環境から、RGB画像のみを使用して意味的に特定されたターゲットへ移動することができる。
論文 参考訳(メタデータ) (2020-09-11T13:28:26Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。