論文の概要: Zero-Shot 3D Visual Grounding from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.22429v1
- Date: Wed, 28 May 2025 14:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.664598
- Title: Zero-Shot 3D Visual Grounding from Vision-Language Models
- Title(参考訳): 視覚言語モデルによるゼロショット3次元視覚接地
- Authors: Rong Li, Shijie Li, Lingdong Kong, Xulei Yang, Junwei Liang,
- Abstract要約: 3Dビジュアルグラウンド(3DVG)は、自然言語記述を用いて、3Dシーンで対象物を見つけることを目的としている。
SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
- 参考スコア(独自算出の注目度): 10.81711535075112
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 3D Visual Grounding (3DVG) seeks to locate target objects in 3D scenes using natural language descriptions, enabling downstream applications such as augmented reality and robotics. Existing approaches typically rely on labeled 3D data and predefined categories, limiting scalability to open-world settings. We present SeeGround, a zero-shot 3DVG framework that leverages 2D Vision-Language Models (VLMs) to bypass the need for 3D-specific training. To bridge the modality gap, we introduce a hybrid input format that pairs query-aligned rendered views with spatially enriched textual descriptions. Our framework incorporates two core components: a Perspective Adaptation Module that dynamically selects optimal viewpoints based on the query, and a Fusion Alignment Module that integrates visual and spatial signals to enhance localization precision. Extensive evaluations on ScanRefer and Nr3D confirm that SeeGround achieves substantial improvements over existing zero-shot baselines -- outperforming them by 7.7% and 7.1%, respectively -- and even rivals fully supervised alternatives, demonstrating strong generalization under challenging conditions.
- Abstract(参考訳): 3Dビジュアルグラウンド(3DVG)は、自然言語記述を使用して3Dシーンで対象物を見つけることを目的としており、拡張現実やロボット工学などの下流アプリケーションを可能にする。
既存のアプローチは一般的にラベル付き3Dデータと事前定義されたカテゴリに依存しており、スケーラビリティをオープンワールド設定に制限している。
SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
モダリティギャップを埋めるため,クエリアラインの描画されたビューと空間的にリッチなテキスト記述を組み合わせたハイブリッド入力形式を導入する。
本フレームワークは、クエリに基づいて最適視点を動的に選択するパースペクティブ適応モジュールと、視覚信号と空間信号を統合してローカライズ精度を高めるフュージョンアライメントモジュールの2つのコアコンポーネントを組み込んでいる。
ScanReferとNr3Dの大規模な評価によると、SeeGroundは既存のゼロショットベースラインよりも大幅に改善されており、それぞれ7.7%と7.1%を上回っている。
関連論文リスト
- NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。