論文の概要: ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning
- arxiv url: http://arxiv.org/abs/2309.16650v1
- Date: Thu, 28 Sep 2023 17:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 12:57:15.365498
- Title: ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning
- Title(参考訳): ConceptGraphs: 知覚と計画のためのオープンVocabulary 3D Scene Graphs
- Authors: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy
Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul,
Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B.
Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
- Abstract要約: ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
- 参考スコア(独自算出の注目度): 125.90002884194838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )
- Abstract(参考訳): ロボットがさまざまなタスクをこなすためには、意味的にリッチだが、タスク駆動の知覚と計画のためにコンパクトで効率的な世界を3d表現する必要がある。
最近のアプローチでは、3d表現に意味をエンコードするために大きな視覚言語モデルの機能を活用しようと試みている。
しかし、これらの手法は、大規模環境ではうまくスケールしない点ごとの特徴ベクトルを持つマップを生成する傾向があり、また、下流計画に役立つ環境内のエンティティ間の意味的な空間的関係も含まない。
本研究では,3dシーンのためのオープンボカブラリーグラフ構造表現であるconceptgraphsを提案する。
ConceptGraphsは2Dファウンデーションモデルを活用し、マルチビューアソシエーションによって出力を3Dに融合することによって構築される。
得られた表現は、大きな3Dデータセットやファインチューンモデルを集めることなく、新しいセマンティッククラスに一般化される。
抽象的(言語的)プロンプトを通じて特定され,空間的および意味的概念に対する複雑な推論を必要とする,下流計画タスクを通じて,この表現の有用性を実証する。
(プロジェクトページ: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )
関連論文リスト
- Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph [0.4369058206183195]
既存のCLIPベースのオープンボキャブラリ手法は、単純な(悪い)クエリで3Dオブジェクトの検索に成功している。
本稿では,3次元空間グラフ表現を計量エッジで構築するBBQというモジュラー手法を提案する。
BBQは、3Dオブジェクトを形成するためにDINOを使ったロバストなアソシエーション、それらを2Dに投影する高度なレイキャストアルゴリズム、グラフノードとして記述するビジョン言語モデルを採用している。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。