論文の概要: DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
- arxiv url: http://arxiv.org/abs/2503.03190v2
- Date: Thu, 06 Mar 2025 03:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:29.800073
- Title: DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
- Title(参考訳): DSPNet:ロバストな3D質問応答のためのデュアルビジョンシーン知覚
- Authors: Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li, Liang Lin,
- Abstract要約: 3次元質問回答(3D QA)では、テキストによって記述された位置の3Dシーンを理解し、周囲の環境を判断し、その状況下での質問に答える必要がある。
既存の手法は通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャの詳細の重要性を見落としている。
本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
- 参考スコア(独自算出の注目度): 106.96097136553105
- License:
- Abstract: 3D Question Answering (3D QA) requires the model to comprehensively understand its situated 3D scene described by the text, then reason about its surrounding environment and answer a question under that situation. However, existing methods usually rely on global scene perception from pure 3D point clouds and overlook the importance of rich local texture details from multi-view images. Moreover, due to the inherent noise in camera poses and complex occlusions, there exists significant feature degradation and reduced feature robustness problems when aligning 3D point cloud with multi-view images. In this paper, we propose a Dual-vision Scene Perception Network (DSPNet), to comprehensively integrate multi-view and point cloud features to improve robustness in 3D QA. Our Text-guided Multi-view Fusion (TGMF) module prioritizes image views that closely match the semantic content of the text. To adaptively fuse back-projected multi-view images with point cloud features, we design the Adaptive Dual-vision Perception (ADVP) module, enhancing 3D scene comprehension. Additionally, our Multimodal Context-guided Reasoning (MCGR) module facilitates robust reasoning by integrating contextual information across visual and linguistic modalities. Experimental results on SQA3D and ScanQA datasets demonstrate the superiority of our DSPNet. Codes will be available at https://github.com/LZ-CH/DSPNet.
- Abstract(参考訳): 3D質問回答(3D QA)では,テキストによって記述された位置の3Dシーンを包括的に理解し,周囲の環境を判断し,その状況下での質問に答える必要がある。
しかし、既存の手法は、通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャ詳細の重要性を見落としている。
さらに、カメラのポーズや複雑なオクルージョンには固有のノイズがあるため、3Dポイントクラウドとマルチビュー画像の整列時の特徴劣化や特徴堅牢性の問題も少なくなっている。
本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
テキスト誘導多視点融合(TGMF)モジュールは、テキストの意味内容と密に一致した画像ビューを優先する。
バックプロジェクションされたマルチビュー画像にポイントクラウドの特徴を融合させるため,Adaptive Dual-vision Perception (ADVP) モジュールを設計し,3Dシーンの理解を深める。
さらに,Multimodal Context-guided Reasoning (MCGR)モジュールは,視覚的・言語的モダリティにまたがるコンテキスト情報を統合することで,堅牢な推論を容易にする。
SQA3DとScanQAデータセットの実験結果は、我々のDSPNetの優位性を示している。
コードはhttps://github.com/LZ-CH/DSPNet.comで入手できる。
関連論文リスト
- IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation [29.714642487981358]
3D参照式(3D-RES)は、所定の式に基づいてクラウドシーンをセグメント化することを目的としている。
既存の3D-RESアプローチでは、機能の曖昧さと意図の曖昧さという2つの大きな課題に直面している。
本稿では,画像強化型Prompt Decoding Network (IPDN)を導入し,モデルの推論能力を向上する。
論文 参考訳(メタデータ) (2025-01-09T06:20:00Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。