論文の概要: Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph
- arxiv url: http://arxiv.org/abs/2406.07113v2
- Date: Mon, 17 Jun 2024 13:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:50:51.824008
- Title: Beyond Bare Queries: Open-Vocabulary Object Retrieval with 3D Scene Graph
- Title(参考訳): Beyond Bare Queries: 3D Scene Graphによるオープン語彙オブジェクト検索
- Authors: Sergey Linok, Tatiana Zemskova, Svetlana Ladanova, Roman Titkov, Dmitry Yudin,
- Abstract要約: 既存のCLIPベースのオープンボキャブラリ手法は、単純な(悪い)クエリで3Dオブジェクトの検索に成功している。
本稿では,3次元空間グラフ表現を計量エッジで構築するBBQというモジュラー手法を提案する。
BBQは、3Dオブジェクトを形成するためにDINOを使ったロバストなアソシエーション、それらを2Dに投影する高度なレイキャストアルゴリズム、グラフノードとして記述するビジョン言語モデルを採用している。
- 参考スコア(独自算出の注目度): 0.4369058206183195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating objects referred to in natural language poses a significant challenge for autonomous agents. Existing CLIP-based open-vocabulary methods successfully perform 3D object retrieval with simple (bare) queries but cannot cope with ambiguous descriptions that demand an understanding of object relations. To tackle this problem, we propose a modular approach called BBQ (Beyond Bare Queries), which constructs 3D scene spatial graph representation with metric edges and utilizes a large language model as a human-to-agent interface through our deductive scene reasoning algorithm. BBQ employs robust DINO-powered associations to form 3D objects, an advanced raycasting algorithm to project them to 2D, and a vision-language model to describe them as graph nodes. On Replica and ScanNet datasets, we show that the designed method accurately constructs 3D object-centric maps. We have demonstrated that their quality takes a leading place for open-vocabulary 3D semantic segmentation against other zero-shot methods. Also, we show that leveraging spatial relations is especially effective for scenes containing multiple entities of the same semantic class. On Sr3D and Nr3D benchmarks, our deductive approach demonstrates a significant improvement, enabling retrieving objects by complex queries compared to other state-of-the-art methods. Considering our design solutions, we achieved a processing speed approximately x3 times faster than the closest analog. This promising performance enables our approach for usage in applied intelligent robotics projects. We make the code publicly available at linukc.github.io/bbq/.
- Abstract(参考訳): 自然言語で言及されたオブジェクトの配置は、自律的なエージェントにとって大きな課題となる。
既存のCLIPベースのオープンボキャブラリ手法は,単純なクエリによる3次元オブジェクトの検索に成功しているが,オブジェクト関係の理解を求める曖昧な記述には対応できない。
そこで,この問題を解決するためにBBQ (Beyond Bare Queries) と呼ばれるモジュラー手法を提案する。この手法は3次元空間グラフ表現を計量エッジで構築し,提案アルゴリズムを用いて大規模言語モデルを人対エージェントインタフェースとして利用する。
BBQは、3Dオブジェクトを形成するためにDINOを使ったロバストなアソシエーション、それらを2Dに投影する高度なレイキャストアルゴリズム、グラフノードとして記述するビジョン言語モデルを採用している。
Replica と ScanNet のデータセットでは,設計手法が3次元オブジェクト中心の地図を正確に構築できることが示されている。
オープンな3次元セマンティックセマンティックセグメンテーションにおいて,他のゼロショット手法に対して,その品質が重要な位置を占めることを実証した。
また,同じ意味クラスの複数の実体を含む場面において,空間的関係の活用が特に有効であることを示す。
Sr3D と Nr3D のベンチマークでは、提案手法は、他の最先端手法と比較して、複雑なクエリによるオブジェクトの検索を可能にした。
設計ソリューションを考えると、最も近いアナログの約x3倍の処理速度を達成した。
この有望なパフォーマンスは、応用インテリジェントロボティクスプロジェクトにおける私たちのアプローチの活用を可能にします。
コードをlinukc.github.io/bbq/で公開しています。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。