論文の概要: 3D Aware Region Prompted Vision Language Model
- arxiv url: http://arxiv.org/abs/2509.13317v1
- Date: Tue, 16 Sep 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.22527
- Title: 3D Aware Region Prompted Vision Language Model
- Title(参考訳): 3次元認識領域の視覚言語モデル
- Authors: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu,
- Abstract要約: SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
- 参考スコア(独自算出の注目度): 99.4106711584584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Spatial Region 3D (SR-3D) aware vision-language model that connects single-view 2D images and multi-view 3D data through a shared visual token space. SR-3D supports flexible region prompting, allowing users to annotate regions with bounding boxes, segmentation masks on any frame, or directly in 3D, without the need for exhaustive multi-frame labeling. We achieve this by enriching 2D visual features with 3D positional embeddings, which allows the 3D model to draw upon strong 2D priors for more accurate spatial reasoning across frames, even when objects of interest do not co-occur within the same view. Extensive experiments on both general 2D vision language and specialized 3D spatial benchmarks demonstrate that SR-3D achieves state-of-the-art performance, underscoring its effectiveness for unifying 2D and 3D representation space on scene understanding. Moreover, we observe applicability to in-the-wild videos without sensory 3D inputs or ground-truth 3D annotations, where SR-3D accurately infers spatial relationships and metric measurements.
- Abstract(参考訳): 本稿では,一視点2D画像と多視点3Dデータを共有視覚トークン空間を介して接続する空間領域3D(SR-3D)認識型視覚言語モデルを提案する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、ユーザーは完全なマルチフレームラベリングを必要とせず、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dの領域をアノテートすることができる。
対象物が同一視野内で共起していない場合でも、フレーム間のより正確な空間的推論を行うために、3次元モデルで強い2次元先行を描画することができる3次元位置埋め込みによる2次元視覚特徴の強化により、これを実現できる。
一般の2次元視覚言語と特殊3次元空間ベンチマークの広範な実験により、SR-3Dは最先端の性能を達成し、シーン理解における2次元と3次元の表現空間の統合の有効性を実証した。
さらに,SR-3Dは空間的関係や距離測定を正確に推測し,センサレス3D入力や接地トルース3Dアノテーションを使わずに,Wildビデオに適用可能であることを観察した。
関連論文リスト
- Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Latent Radiance Fields with 3D-aware 2D Representations [13.527653704258121]
本稿では,3次元認識を2次元潜在空間に統合する新しいフレームワークを提案する。
本フレームワークは,(1)2次元潜在表現の3次元整合性を高める対応認識自動符号化法,(2)3次元認識2次元表現を3次元空間に引き上げる潜在放射場(LRF),(3)レンダリングされた2次元表現から画像デコーディングを改善するVAE-RFアライメント戦略の3段階からなる。
論文 参考訳(メタデータ) (2025-02-13T18:59:09Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [25.311698492216127]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。