論文の概要: DSM: Building A Diverse Semantic Map for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2504.08307v1
- Date: Fri, 11 Apr 2025 07:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:05.321506
- Title: DSM: Building A Diverse Semantic Map for 3D Visual Grounding
- Title(参考訳): DSM:3次元視覚グラウンドのための多次元セマンティックマップの構築
- Authors: Qinghongbing Xie, Zijian Liang, Long Zeng,
- Abstract要約: 本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。
本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。
実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.89669292144966
- License:
- Abstract: In recent years, with the growing research and application of multimodal large language models (VLMs) in robotics, there has been an increasing trend of utilizing VLMs for robotic scene understanding tasks. Existing approaches that use VLMs for 3D Visual Grounding tasks often focus on obtaining scene information through geometric and visual information, overlooking the extraction of diverse semantic information from the scene and the understanding of rich implicit semantic attributes, such as appearance, physics, and affordance. The 3D scene graph, which combines geometry and language, is an ideal representation method for environmental perception and is an effective carrier for language models in 3D Visual Grounding tasks. To address these issues, we propose a diverse semantic map construction method specifically designed for robotic agents performing 3D Visual Grounding tasks. This method leverages VLMs to capture the latent semantic attributes and relations of objects within the scene and creates a Diverse Semantic Map (DSM) through a geometry sliding-window map construction strategy. We enhance the understanding of grounding information based on DSM and introduce a novel approach named DSM-Grounding. Experimental results show that our method outperforms current approaches in tasks like semantic segmentation and 3D Visual Grounding, particularly excelling in overall metrics compared to the state-of-the-art. In addition, we have deployed this method on robots to validate its effectiveness in navigation and grasping tasks.
- Abstract(参考訳): 近年,ロボット工学におけるマルチモーダル大言語モデル(VLM)の研究や応用の進展に伴い,ロボットシーン理解タスクにVLMを活用する傾向が高まっている。
3次元視覚接地作業にVLMを使用する既存のアプローチは、しばしば幾何学的および視覚的な情報を通してシーン情報を取得することに焦点を当て、シーンから多様な意味情報の抽出と、外観、物理学、余裕といった豊かな暗黙的な意味的属性の理解を見越す。
幾何学と言語を組み合わせた3Dシーングラフは, 環境認識のための理想的な表現手法であり, 3次元ビジュアルグラウンディングタスクにおける言語モデルに有効なキャリアである。
これらの課題に対処するために,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。
この手法はVLMを利用してシーン内のオブジェクトの潜在意味的属性と関係をキャプチャし、幾何学的スライディングウインドウマップ構築戦略によりDSM(Diverse Semantic Map)を作成する。
我々は,DSMに基づく接地情報の理解を深め,DSM-Groundingという新しいアプローチを導入する。
実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
さらに,本手法をロボットに導入し,ナビゲーションおよび把握作業の有効性を検証した。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。