論文の概要: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2504.08307v2
- Date: Tue, 14 Oct 2025 02:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.949783
- Title: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
- Title(参考訳): DSM:3次元視覚グラウンドのための多次元意味マップの構築
- Authors: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng,
- Abstract要約: 本稿では,VLM由来のセマンティクスのスペクトルを持つロバストな幾何学的モデルに富むシーン表現フレームワークであるDSM(Diverse Semantic Map)フレームワークを紹介する。
ScanReferのベンチマークでは、DSM-GroundingはIoU@0.5の59.06%の精度を達成し、他を10%上回っている。
セマンティックセグメンテーションでは、DSMは67.93%のF-mIoUを獲得し、特権のあるものを含むすべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 4.016097197373127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
- Abstract(参考訳): 効果的なシーン表現は表現の視覚的接地能力にとって重要であるが、既存の3次元視覚的接地法は制約されることが多い。
幾何学的および視覚的な手がかりにのみ焦点をあてるか、あるいは従来の3Dシーングラフのように、複雑な推論に必要な多次元属性を欠いている。
このギャップを埋めるために、私たちはDSM(Diverse Semantic Map)フレームワークを導入しました。
DSMは最初、時間的スライディングウィンドウ内で多視点観測を融合させ、永続的で包括的な世界モデルを作成することで、オンラインで構築された。
この基礎の上に構築されたDSM-Groundingは、自由形式のVLMクエリから意味豊かなマップ上の構造化推論プロセスに基底を移し、精度と解釈可能性を大幅に向上させる新しいパラダイムである。
大規模な評価は、我々のアプローチの優位性を検証する。
ScanReferのベンチマークでは、DSM-GroundingはIoU@0.5の59.06%の精度を達成し、他を10%上回っている。
セマンティックセグメンテーションでは、DSMは67.93%のF-mIoUを獲得し、特権のあるものを含むすべてのベースラインを上回ります。
さらに、複雑なナビゲーションと把握タスクのための物理ロボットへのデプロイメントの成功により、現実世界のシナリオにおけるフレームワークの実用性が確認される。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions [43.784500616459304]
本稿では,言語指導,視覚的観察,インタラクションに基づく3次元オブジェクトの可利用性に基づく新しいタスクを提案する。
LMAffordance3Dは,最初のマルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
論文 参考訳(メタデータ) (2025-04-07T05:38:23Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。