論文の概要: ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21069v1
- Date: Fri, 24 Oct 2025 00:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.347277
- Title: ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models
- Title(参考訳): ZING-3D:視覚言語モデルによるゼロショットインクリメンタル3次元シーングラフ
- Authors: Pranav Saxena, Jimmy Chiun,
- Abstract要約: ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning about complex 3D environments requires structured scene representations that capture not only objects but also their semantic and spatial relationships. While recent works on 3D scene graph generation have leveraged pretrained VLMs without task-specific fine-tuning, they are largely confined to single-view settings, fail to support incremental updates as new observations arrive and lack explicit geometric grounding in 3D space, all of which are essential for embodied scenarios. In this paper, we propose, ZING-3D, a framework that leverages the vast knowledge of pretrained foundation models to enable open-vocabulary recognition and generate a rich semantic representation of the scene in a zero-shot manner while also enabling incremental updates and geometric grounding in 3D space, making it suitable for downstream robotics applications. Our approach leverages VLM reasoning to generate a rich 2D scene graph, which is grounded in 3D using depth information. Nodes represent open-vocabulary objects with features, 3D locations, and semantic context, while edges capture spatial and semantic relations with inter-object distances. Our experiments on scenes from the Replica and HM3D dataset show that ZING-3D is effective at capturing spatial and relational knowledge without the need of task-specific training.
- Abstract(参考訳): 複雑な3D環境の理解と推論には、オブジェクトだけでなく、それらの意味的および空間的関係をキャプチャする、構造化されたシーン表現が必要である。
3Dシーングラフ生成に関する最近の研究は、タスク固有の微調整なしで事前訓練されたVLMを活用しているが、それらは主にシングルビュー設定に限られており、新しい観測が到着し、3D空間における明示的な幾何学的グラウンドが欠如しているため、インクリメンタルアップデートをサポートしない。
本稿では、事前学習された基礎モデルの膨大な知識を活用して、オープン語彙認識を可能にし、シーンのリッチな意味表現をゼロショットで生成するフレームワークであるZING-3Dを提案する。
提案手法は,VLM推論を利用して,深度情報を用いて3次元に接地したリッチな2次元シーングラフを生成する。
ノードは、特徴、3Dロケーション、セマンティックコンテキストを持つオープンな語彙オブジェクトを表し、エッジはオブジェクト間距離と空間的および意味的関係をキャプチャする。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
関連論文リスト
- NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - 3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。
既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。
本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T16:10:44Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Weakly-Supervised 3D Visual Grounding based on Visual Language Alignment [24.63428589906294]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。