論文の概要: Z3D: Zero-Shot 3D Visual Grounding from Images
- arxiv url: http://arxiv.org/abs/2602.03361v1
- Date: Tue, 03 Feb 2026 10:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.394359
- Title: Z3D: Zero-Shot 3D Visual Grounding from Images
- Title(参考訳): Z3D:ゼロショット3D画像のグラウンド化
- Authors: Nikita Drozdov, Andrey Lemeshko, Nikita Gavrilov, Anton Konushin, Danila Rukhovich, Maksim Kolodiazhnyi,
- Abstract要約: 3Dビジュアルグラウンドティング(3DVG)は、自然言語クエリに基づいて、オブジェクトを3Dシーンにローカライズすることを目的としている。
マルチビュー画像上で柔軟に動作可能なユニバーサルグラウンドパイプラインであるZ3Dを紹介する。
- 参考スコア(独自算出の注目度): 7.756226313216256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding (3DVG) aims to localize objects in a 3D scene based on natural language queries. In this work, we explore zero-shot 3DVG from multi-view images alone, without requiring any geometric supervision or object priors. We introduce Z3D, a universal grounding pipeline that flexibly operates on multi-view images while optionally incorporating camera poses and depth maps. We identify key bottlenecks in prior zero-shot methods causing significant performance degradation and address them with (i) a state-of-the-art zero-shot 3D instance segmentation method to generate high-quality 3D bounding box proposals and (ii) advanced reasoning via prompt-based segmentation, which utilizes full capabilities of modern VLMs. Extensive experiments on the ScanRefer and Nr3D benchmarks demonstrate that our approach achieves state-of-the-art performance among zero-shot methods. Code is available at https://github.com/col14m/z3d .
- Abstract(参考訳): 3Dビジュアルグラウンドティング(3DVG)は、自然言語クエリに基づいて、オブジェクトを3Dシーンにローカライズすることを目的としている。
本研究では,多視点画像のみからのゼロショット3DVGを,幾何的な監督や物体の先行を必要とせずに探索する。
カメラのポーズや深度マップを任意に組み込んだまま、多視点画像を柔軟に操作できるユニバーサルグラウンドパイプラインであるZ3Dを紹介する。
我々は、先行ゼロショット法における重要なボトルネックを特定し、性能を著しく低下させ、それらに対処する。
一 高品質な3Dバウンディングボックスの提案を生成する最先端のゼロショット3Dインスタンスセグメンテーション方法
(II) 現代のVLMのフル機能を活用したプロンプトベースセグメンテーションによる高度な推論
ScanRefer と Nr3D ベンチマークの大規模な実験により, ゼロショット法における最先端性能が得られた。
コードはhttps://github.com/col14m/z3dで入手できる。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - TUN3D: Towards Real-World Scene Understanding from Unposed Images [11.23080017635425]
TUN3Dは、実際のスキャンにおいて、関節配置推定と3次元物体検出に対処する新しい手法である。
地上カメラのポーズや深度監視は必要ない。
3つの挑戦的なシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T20:24:07Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。