論文の概要: Online Embedding Multi-Scale CLIP Features into 3D Maps
- arxiv url: http://arxiv.org/abs/2403.18178v1
- Date: Wed, 27 Mar 2024 01:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:45:45.662960
- Title: Online Embedding Multi-Scale CLIP Features into 3D Maps
- Title(参考訳): マルチスケールCLIP機能の3Dマップへのオンライン埋め込み
- Authors: Shun Taguchi, Hideki Deguchi,
- Abstract要約: 本研究では,マルチスケールCLIP機能を3次元地図にオンライン埋め込みする手法を提案する。
CLIPを活用することで、この手法は従来の語彙制限手法の制約を超越する。
基本的に,本手法は,不慣れな環境のリアルタイムなオブジェクト探索とマッピングを同時に実現している。
- 参考スコア(独自算出の注目度): 2.624282086797512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a novel approach to online embedding of multi-scale CLIP (Contrastive Language-Image Pre-Training) features into 3D maps. By harnessing CLIP, this methodology surpasses the constraints of conventional vocabulary-limited methods and enables the incorporation of semantic information into the resultant maps. While recent approaches have explored the embedding of multi-modal features in maps, they often impose significant computational costs, lacking practicality for exploring unfamiliar environments in real time. Our approach tackles these challenges by efficiently computing and embedding multi-scale CLIP features, thereby facilitating the exploration of unfamiliar environments through real-time map generation. Moreover, the embedding CLIP features into the resultant maps makes offline retrieval via linguistic queries feasible. In essence, our approach simultaneously achieves real-time object search and mapping of unfamiliar environments. Additionally, we propose a zero-shot object-goal navigation system based on our mapping approach, and we validate its efficacy through object-goal navigation, offline object retrieval, and multi-object-goal navigation in both simulated environments and real robot experiments. The findings demonstrate that our method not only exhibits swifter performance than state-of-the-art mapping methods but also surpasses them in terms of the success rate of object-goal navigation tasks.
- Abstract(参考訳): 本研究では,マルチスケールCLIP(Contrastive Language- Image Pre-Training)機能を3次元地図に組み込む手法を提案する。
CLIPを利用することで、従来の語彙制限手法の制約を超越し、意味情報を結果マップに組み込むことができる。
近年のアプローチでは、地図にマルチモーダルな特徴を埋め込む方法が検討されているが、しばしば計算コストが著しく高く、不慣れな環境をリアルタイムで探索する実践性が欠如している。
提案手法は,マルチスケールCLIP機能を効率的に計算し,組み込むことにより,実時間マップ生成による未知環境の探索を容易にする。
さらに、CLIP機能を結果マップに埋め込むことで、言語クエリによるオフライン検索が可能になる。
基本的に,本手法は,不慣れな環境のリアルタイムなオブジェクト探索とマッピングを同時に実現している。
さらに, マッピング手法に基づくゼロショットオブジェクトゴールナビゲーションシステムを提案し, オブジェクトゴールナビゲーション, オフラインオブジェクト検索, シミュレーション環境および実ロボット実験におけるマルチオブジェクトゴールナビゲーションによる有効性を検証する。
その結果,本手法は最先端のマッピング手法よりも高速な性能を示すだけでなく,目標ナビゲーションタスクの成功率も上回っていることがわかった。
関連論文リスト
- Real-Time Metric-Semantic Mapping for Autonomous Navigation in Outdoor Environments [18.7565126823704]
大規模屋外環境のグローバルなメトリセマンティックメッシュマップを生成するオンラインメトリセマンティックマッピングシステムを提案する。
シナリオスケールに関わらず,フレーム処理は7ms未満で,マッピング処理は例外的な速度を実現する。
実世界のナビゲーションシステムにマップを組み込むことにより,大学構内における測地情報に基づく地形評価と自律的なポイント・ツー・ポイントナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-11-30T00:05:10Z) - Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation [10.898724668444125]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - Multi-Object Navigation in real environments using hybrid policies [18.52681391843433]
本稿では,問題を2つの異なるスキルに分解するハイブリッドナビゲーション手法を提案する。
シミュレーションと実環境の両方において、エンドツーエンドの手法と比較して、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2024-01-24T20:41:25Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。