論文の概要: Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
- arxiv url: http://arxiv.org/abs/2309.15940v1
- Date: Wed, 27 Sep 2023 18:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:06:01.818926
- Title: Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
- Title(参考訳): Open-Vocabulary 3D Scene Graphsを用いたコンテキスト対応エンティティグラウンド
- Authors: Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric
Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris,
Abdeslam Boularias
- Abstract要約: Open-Vocabulary 3D Scene Graph (OVSG)は、エンティティを自由形式のテキストベースのクエリでグラウンドするフォーマルなフレームワークである。
3Dシーングラフに関する既存の研究とは対照的に、OVSGは自由形式のテキスト入力とオープン語彙クエリをサポートする。
- 参考スコア(独自算出の注目度): 22.499136041727432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an Open-Vocabulary 3D Scene Graph (OVSG), a formal framework for
grounding a variety of entities, such as object instances, agents, and regions,
with free-form text-based queries. Unlike conventional semantic-based object
localization approaches, our system facilitates context-aware entity
localization, allowing for queries such as ``pick up a cup on a kitchen table"
or ``navigate to a sofa on which someone is sitting". In contrast to existing
research on 3D scene graphs, OVSG supports free-form text input and
open-vocabulary querying. Through a series of comparative experiments using the
ScanNet dataset and a self-collected dataset, we demonstrate that our proposed
approach significantly surpasses the performance of previous semantic-based
localization techniques. Moreover, we highlight the practical application of
OVSG in real-world robot navigation and manipulation experiments.
- Abstract(参考訳): 本稿では,オブジェクトインスタンスやエージェント,リージョンなど,さまざまなエンティティを自由形式のテキストベースのクエリで接地するための形式的フレームワークであるopen-vocabulary 3d scene graph(ovsg)を提案する。
従来のセマンティックなオブジェクトローカライゼーションアプローチとは異なり、我々のシステムはコンテキスト対応のエンティティローカライゼーションを容易にし、"`pick up a cup on a kitchen table" や " ``navigate to a sofa on a person are sitting" といったクエリを利用できる。
3Dシーングラフに関する既存の研究とは対照的に、OVSGは自由形式のテキスト入力とオープン語彙クエリをサポートする。
scannetデータセットと自己収集データセットを用いた一連の比較実験を通じて,提案手法が従来のセマンティクスベースのローカライズ手法の性能を大幅に上回ることを示す。
さらに,実世界のロボットナビゲーションおよび操作実験におけるOVSGの実践的応用を強調した。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。