論文の概要: FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment
- arxiv url: http://arxiv.org/abs/2504.08603v1
- Date: Fri, 11 Apr 2025 15:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:57:03.490357
- Title: FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment
- Title(参考訳): FindAnything:任意の環境におけるロボット探索のためのオープン語彙とオブジェクト中心マッピング
- Authors: Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Stefan Leutenegger,
- Abstract要約: FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。
当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
- 参考スコア(独自算出の注目度): 16.987872206495897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometrically accurate and semantically expressive map representations have proven invaluable to facilitate robust and safe mobile robot navigation and task planning. Nevertheless, real-time, open-vocabulary semantic understanding of large-scale unknown environments is still an open problem. In this paper we present FindAnything, an open-world mapping and exploration framework that incorporates vision-language information into dense volumetric submaps. Thanks to the use of vision-language features, FindAnything bridges the gap between pure geometric and open-vocabulary semantic information for a higher level of understanding while allowing to explore any environment without the help of any external source of ground-truth pose information. We represent the environment as a series of volumetric occupancy submaps, resulting in a robust and accurate map representation that deforms upon pose updates when the underlying SLAM system corrects its drift, allowing for a locally consistent representation between submaps. Pixel-wise vision-language features are aggregated from efficient SAM (eSAM)-generated segments, which are in turn integrated into object-centric volumetric submaps, providing a mapping from open-vocabulary queries to 3D geometry that is scalable also in terms of memory usage. The open-vocabulary map representation of FindAnything achieves state-of-the-art semantic accuracy in closed-set evaluations on the Replica dataset. This level of scene understanding allows a robot to explore environments based on objects or areas of interest selected via natural language queries. Our system is the first of its kind to be deployed on resource-constrained devices, such as MAVs, leveraging vision-language information for real-world robotic tasks.
- Abstract(参考訳): 幾何学的に正確で意味論的に表現された地図表現は、堅牢で安全な移動ロボットナビゲーションとタスクプランニングを容易にするために有用であることが証明されている。
それでも、大規模未知の環境に対するリアルタイムでオープンなセマンティック理解は依然として未解決の問題である。
本稿では,視覚言語情報を高密度ボリュームサブマップに組み込んだオープンワールドマッピング・探索フレームワークであるFindAnythingについて述べる。
視覚言語機能の使用により、FindAnythingは、純粋な幾何学的意味情報とオープン語彙的意味情報のギャップをより高いレベルの理解のために橋渡しし、外部の地味の情報源の助けを借りずにどんな環境でも探索できるようにする。
我々は,この環境を,一連のボリューム占有サブマップとして表現し,基礎となるSLAMシステムがドリフトを補正し,サブマップ間の局所的に一貫した表現を可能にすることにより,ポーズ更新時に変形する堅牢で正確なマップ表現を実現する。
ピクセル単位の視覚言語機能は、効率の良いSAM(eSAM)生成セグメントから集約され、オブジェクト中心のボリュームサブマップに統合され、オープン語彙クエリからメモリ使用量の観点からもスケーラブルな3D幾何学へのマッピングを提供する。
FindAnythingのオープン語彙マップ表現は、Replicaデータセットのクローズドセット評価において、最先端のセマンティックな精度を達成する。
このレベルのシーン理解により、ロボットは自然言語クエリによって選択されたオブジェクトや関心領域に基づいて環境を探索することができる。
われわれのシステムは、MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムであり、現実のロボットタスクに視覚言語情報を活用する。
関連論文リスト
- Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。
これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Towards Localizing Structural Elements: Merging Geometrical Detection with Semantic Verification in RGB-D Data [0.0]
本稿では, 壁面や地表面などの構造成分を局所化するための実時間パイプラインについて, 純三次元平面検出のための幾何計算を統合した。
並列なマルチスレッドアーキテクチャを持ち、環境中で検出されたすべての平面のポーズと方程式を正確に推定し、汎視的セグメンテーション検証を用いて地図構造を形成するものをフィルタリングし、検証された構成部品のみを保持する。
また、検出されたコンポーネントを統一された3次元シーングラフに(再)関連付けることで、幾何学的精度と意味的理解のギャップを埋めることもできる。
論文 参考訳(メタデータ) (2024-09-10T16:28:09Z) - LOSS-SLAM: Lightweight Open-Set Semantic Simultaneous Localization and Mapping [9.289001828243512]
オブジェクトを識別,ローカライズ,符号化するシステムは,オープンセットのセマンティックな同時ローカライゼーションとマッピングを行う確率的グラフィカルモデルと密結合していることを示す。
提案した軽量オブジェクト符号化は,既存のオープンセット手法よりも高精度なオブジェクトベースSLAMを実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-05T19:42:55Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。
提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-11-21T11:13:08Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Extending Maps with Semantic and Contextual Object Information for Robot
Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。
オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T15:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。