論文の概要: SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2508.20758v1
- Date: Thu, 28 Aug 2025 13:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.411568
- Title: SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding
- Title(参考訳): SeqVLM:Zero-Shot 3DビジュアルグラウンドのためのVLMによる提案型マルチビューシーケンス推論
- Authors: Jiawen Lin, Shiran Bian, Yihang Zhu, Wenbin Tan, Yachao Zhang, Yuan Xie, Yanyun Qu,
- Abstract要約: 3Dビジュアルグラウンド(3DVG)は、自然言語による3Dシーンのオブジェクトのローカライズを目的としている。
対象物推論のための空間情報を備えた多視点実写シーン画像を利用する新しいゼロショット3DVGフレームワークであるSeqVLMを提案する。
ScanRefer と Nr3D のベンチマーク実験では、従来のゼロショット法を4.0%、Nr3D で5.2%上回った。
- 参考スコア(独自算出の注目度): 40.60812160987424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Visual Grounding (3DVG) aims to localize objects in 3D scenes using natural language descriptions. Although supervised methods achieve higher accuracy in constrained settings, zero-shot 3DVG holds greater promise for real-world applications since eliminating scene-specific training requirements. However, existing zero-shot methods face challenges of spatial-limited reasoning due to reliance on single-view localization, and contextual omissions or detail degradation. To address these issues, we propose SeqVLM, a novel zero-shot 3DVG framework that leverages multi-view real-world scene images with spatial information for target object reasoning. Specifically, SeqVLM first generates 3D instance proposals via a 3D semantic segmentation network and refines them through semantic filtering, retaining only semantic-relevant candidates. A proposal-guided multi-view projection strategy then projects these candidate proposals onto real scene image sequences, preserving spatial relationships and contextual details in the conversion process of 3D point cloud to images. Furthermore, to mitigate VLM computational overload, we implement a dynamic scheduling mechanism that iteratively processes sequances-query prompts, leveraging VLM's cross-modal reasoning capabilities to identify textually specified objects. Experiments on the ScanRefer and Nr3D benchmarks demonstrate state-of-the-art performance, achieving Acc@0.25 scores of 55.6% and 53.2%, surpassing previous zero-shot methods by 4.0% and 5.2%, respectively, which advance 3DVG toward greater generalization and real-world applicability. The code is available at https://github.com/JiawLin/SeqVLM.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、自然言語による3Dシーンのオブジェクトのローカライズを目的としている。
教師付き手法は制約された設定で高い精度を達成するが、ゼロショット3DVGはシーン固有のトレーニング要件を排除して以来、現実世界のアプリケーションにとってより有望である。
しかし、既存のゼロショット法は、単一ビューのローカライゼーションや文脈欠落や詳細劣化に依存するため、空間限定推論の課題に直面している。
これらの問題に対処するために,ターゲットオブジェクト推論のための空間情報を備えた多視点実写シーン画像を活用する,ゼロショット3DVGフレームワークであるSeqVLMを提案する。
具体的には、SeqVLMはまず3Dセマンティックセグメンテーションネットワークを介して3Dインスタンスの提案を生成し、セマンティックフィルタリングを通じてそれらを洗練し、セマンティック関連候補のみを保持する。
提案誘導型マルチビュープロジェクション戦略では、これらの候補提案を実シーン画像シーケンスに投影し、3次元点雲の画像への変換過程における空間的関係と文脈的詳細を保存する。
さらに, VLMの計算過負荷を軽減するために, VLMのクロスモーダル推論機能を利用して, 逐次クエリプロンプトを反復的に処理する動的スケジューリング機構を実装した。
ScanReferとNr3Dベンチマークの実験では、Acc@0.25スコアが55.6%、53.2%に達し、従来のゼロショット法を4.0%、そして5.2%上回った。
コードはhttps://github.com/JiawLin/SeqVLMで公開されている。
関連論文リスト
- Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset [56.533371387182065]
MV-ScanQAは、新しい3D質問応答データセットである。
本稿では,大規模かつ低コストな2D-3D言語事前学習コーパスTripAlignについて紹介する。
さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
論文 参考訳(メタデータ) (2025-08-14T20:35:59Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - Zero-Shot 3D Visual Grounding from Vision-Language Models [10.81711535075112]
3Dビジュアルグラウンド(3DVG)は、自然言語記述を用いて、3Dシーンで対象物を見つけることを目的としている。
SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
論文 参考訳(メタデータ) (2025-05-28T14:53:53Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。