論文の概要: Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation
- arxiv url: http://arxiv.org/abs/2403.17846v2
- Date: Mon, 3 Jun 2024 17:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:37:39.993984
- Title: Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation
- Title(参考訳): 言語学習型ロボットナビゲーションのための階層型オープンボキャブラリ3次元シーングラフ
- Authors: Abdelrhman Werby, Chenguang Huang, Martin Büchner, Abhinav Valada, Wolfram Burgard,
- Abstract要約: 本稿では,言語を基盤としたロボットナビゲーションのための3次元シーングラフマッピング手法HOV-SGを提案する。
HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープン語彙のセマンティック精度において、以前のベースラインを超える。
HOV-SGの有効性と一般化性を証明するため,実世界のマルチストレージ環境における言語条件ロボットナビゲーションの成功例を示した。
- 参考スコア(独自算出の注目度): 22.789590144545706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent open-vocabulary robot mapping methods enrich dense geometric maps with pre-trained visual-language features. While these maps allow for the prediction of point-wise saliency maps when queried for a certain language concept, large-scale environments and abstract queries beyond the object level still pose a considerable hurdle, ultimately limiting language-grounded robotic navigation. In this work, we present HOV-SG, a hierarchical open-vocabulary 3D scene graph mapping approach for language-grounded robot navigation. Leveraging open-vocabulary vision foundation models, we first obtain state-of-the-art open-vocabulary segment-level maps in 3D and subsequently construct a 3D scene graph hierarchy consisting of floor, room, and object concepts, each enriched with open-vocabulary features. Our approach is able to represent multi-story buildings and allows robotic traversal of those using a cross-floor Voronoi graph. HOV-SG is evaluated on three distinct datasets and surpasses previous baselines in open-vocabulary semantic accuracy on the object, room, and floor level while producing a 75% reduction in representation size compared to dense open-vocabulary maps. In order to prove the efficacy and generalization capabilities of HOV-SG, we showcase successful long-horizon language-conditioned robot navigation within real-world multi-storage environments. We provide code and trial video data at http://hovsg.github.io/.
- Abstract(参考訳): 近年のオープンボキャブラリロボットマッピング法は、事前学習された視覚言語特徴を持つ密集した幾何学的地図を具体化している。
これらのマップは、ある言語概念を問うときのポイント・ワイズ・サリエンシ・マップの予測を可能にするが、大規模環境やオブジェクトレベルを超えた抽象的なクエリは依然としてかなりのハードルとなり、最終的には言語を基盤としたロボットナビゲーションを制限する。
本研究では,言語を基盤としたロボットナビゲーションのための3次元シーングラフマッピング手法HOV-SGを提案する。
オープン・ボキャブラリ・ビジョン・ファンデーション・モデルを用いて,まず最先端のオープン・ボキャブラリ・セグメント・レベル・マップを3Dで取得し,その後,フロア,ルーム,オブジェクトの概念からなる3次元シーングラフ階層を構築し,それぞれにオープン・ボキャブラリ・フィーチャを付加する。
提案手法は多層建物を表現でき, クロスフロアのボロノイグラフを用いてロボットの移動を可能にする。
HOV-SGは3つの異なるデータセットで評価され、オブジェクト、部屋、フロアレベルでのオープン語彙のセマンティックな精度で以前のベースラインを超えながら、密接なオープン語彙マップと比較して75%の表現サイズを縮小する。
HOV-SGの有効性と一般化性を証明するため,実世界のマルチストレージ環境において,長期の言語条件付きロボットナビゲーションが成功していることを示す。
コードとトライアルのビデオデータはhttp://hovsg.github.io/で公開しています。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - OpenOcc: Open Vocabulary 3D Scene Reconstruction via Occupancy Representation [30.76201018651464]
従来の3Dシーン理解アプローチでは、高価なラベル付き3Dデータセットを使用して、単一のタスクに対してモデルのトレーニングと監視を行う。
我々は,3次元シーン再構成とオープン語彙理解をニューラルラディアンスフィールドで統合する新しいフレームワークOpenOccを提案する。
提案手法は3次元シーン理解タスクにおいて,特に小型・長距離オブジェクトにおいて,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-18T13:53:48Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。
AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。
ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文 参考訳(メタデータ) (2023-03-13T23:17:51Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。