論文の概要: Pre-Trained Masked Image Model for Mobile Robot Navigation
- arxiv url: http://arxiv.org/abs/2310.07021v2
- Date: Mon, 25 Mar 2024 19:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 00:51:06.080654
- Title: Pre-Trained Masked Image Model for Mobile Robot Navigation
- Title(参考訳): 移動ロボットナビゲーションのための事前学習型マスク画像モデル
- Authors: Vishnu Dutt Sharma, Anukriti Singh, Pratap Tokekar,
- Abstract要約: 2Dトップダウンマップは、未知の領域を通る移動ロボットのナビゲーションと探索に一般的に使用される。
近年の研究では、学習に基づくアプローチによって環境の構造パターンを予測することにより、タスク効率が大幅に向上することが示されている。
既存の基盤ビジョンネットワークは微調整なしで同じことを実現できることを示す。
- 参考スコア(独自算出の注目度): 16.330708552384053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D top-down maps are commonly used for the navigation and exploration of mobile robots through unknown areas. Typically, the robot builds the navigation maps incrementally from local observations using onboard sensors. Recent works have shown that predicting the structural patterns in the environment through learning-based approaches can greatly enhance task efficiency. While many such works build task-specific networks using limited datasets, we show that the existing foundational vision networks can accomplish the same without any fine-tuning. Specifically, we use Masked Autoencoders, pre-trained on street images, to present novel applications for field-of-view expansion, single-agent topological exploration, and multi-agent exploration for indoor mapping, across different input modalities. Our work motivates the use of foundational vision models for generalized structure prediction-driven applications, especially in the dearth of training data. For more qualitative results see https://raaslab.org/projects/MIM4Robots.
- Abstract(参考訳): 2Dトップダウンマップは、未知の領域を通る移動ロボットのナビゲーションと探索に一般的に使用される。
通常、ロボットはオンボードセンサーを使った局所的な観測から、ナビゲーションマップを段階的に構築する。
近年の研究では、学習に基づくアプローチによって環境の構造パターンを予測することにより、タスク効率が大幅に向上することが示されている。
このような作業の多くは、限られたデータセットを使用してタスク固有のネットワークを構築するが、既存の基礎的なビジョンネットワークは微調整なしで同じことを実現できることを示す。
具体的には、路面画像に事前学習したMasked Autoencodersを用いて、フィールド・オブ・ビュー展開、単一エージェントトポロジ探索、屋内マッピングのためのマルチエージェント探索などの新しい応用を、異なる入力モードで提示する。
我々の研究は、一般的な構造予測駆動型アプリケーション、特にトレーニングデータの変形に対する基礎的視覚モデルの利用を動機付けている。
より質的な結果については、https://raaslab.org/projects/MIM4Robotsを参照してください。
関連論文リスト
- Feudal Networks for Visual Navigation [6.1190419149081245]
封建的学習を用いた視覚ナビゲーションの新しいアプローチを提案する。
各レベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで操作する。
得られた封建的なナビゲーションネットワークは、SOTAの性能に近い。
論文 参考訳(メタデータ) (2024-02-19T20:05:41Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - MEM: Multi-Modal Elevation Mapping for Robotics and Learning [10.476978089902818]
我々は、複数の情報源からのマルチモーダル情報を一般的な地図表現に融合させることにより、2.5Dロボット中心の標高マッピングフレームワークを拡張した。
我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-09-28T19:55:29Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - Predicting Dense and Context-aware Cost Maps for Semantic Robot
Navigation [35.45993685414002]
本研究では,対象がセマンティックラベルで指定された未知環境における目標ナビゲーションの課題について検討する。
本稿では,意味的コンテキストを暗黙的に含む高コストマップを予測するために,ディープニューラルネットワークアーキテクチャとロス関数を提案する。
また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:43:19Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation [143.6144560164782]
セマンティックマップを用いた室内ナビゲーションのための学習型アプローチを提案する。
我々は、部屋の位置、大きさ、形状の信念を示すアモーダルな意味的トップダウンマップを生成するためにモデルを訓練する。
次に、これらのマップを使用して、対象の部屋にある点を予測し、その点に向かうためのポリシーを訓練します。
論文 参考訳(メタデータ) (2020-07-20T02:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。