論文の概要: SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.04911v1
- Date: Thu, 08 May 2025 02:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.729264
- Title: SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models
- Title(参考訳): 空間プロンプティング:オフザシェルマルチモーダル大言語モデルを用いたキーフレーム駆動ゼロショット空間推論
- Authors: Shun Taguchi, Hideki Deguchi, Takumi Hamazaki, Hiroyuki Sakai,
- Abstract要約: 本研究では,既成の大規模言語モデルの創発的推論能力を活用する新しいフレームワークであるSpatialPromptingを紹介する。
提案フレームワークは,直感的な視覚的・位置的手がかりを利用したフレキシブルな空間推論のための新しいパラダイムを確立する。
本手法は,従来の3次元インプットと微調整の必要性を効果的に排除し,よりシンプルでスケーラブルな代替手段を提供する。
- 参考スコア(独自算出の注目度): 2.1374208474242815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces SpatialPrompting, a novel framework that harnesses the emergent reasoning capabilities of off-the-shelf multimodal large language models to achieve zero-shot spatial reasoning in three-dimensional (3D) environments. Unlike existing methods that rely on expensive 3D-specific fine-tuning with specialized 3D inputs such as point clouds or voxel-based features, SpatialPrompting employs a keyframe-driven prompt generation strategy. This framework uses metrics such as vision-language similarity, Mahalanobis distance, field of view, and image sharpness to select a diverse and informative set of keyframes from image sequences and then integrates them with corresponding camera pose data to effectively abstract spatial relationships and infer complex 3D structures. The proposed framework not only establishes a new paradigm for flexible spatial reasoning that utilizes intuitive visual and positional cues but also achieves state-of-the-art zero-shot performance on benchmark datasets, such as ScanQA and SQA3D, across several metrics. The proposed method effectively eliminates the need for specialized 3D inputs and fine-tuning, offering a simpler and more scalable alternative to conventional approaches.
- Abstract(参考訳): 本研究では,3次元環境下でのゼロショット空間推論を実現するために,市販マルチモーダル言語モデルの創発的推論能力を活用する新しいフレームワークであるSpatialPromptingを紹介する。
ポイントクラウドやボクセルベースの機能といった特別な3D入力による高価な3D特異な微調整に依存する既存の方法とは異なり、SpatialPromptingはキーフレーム駆動のプロンプト生成戦略を採用している。
このフレームワークは、視覚言語間の類似性、マハラノビス距離、視野、画像のシャープネスなどのメトリクスを使用して、画像シーケンスから多種多様なキーフレームの集合を選択し、対応するカメラポーズデータと統合して、空間的関係を効果的に抽象化し、複雑な3D構造を推論する。
提案フレームワークは、直感的な視覚的および位置的手がかりを利用したフレキシブルな空間推論のための新しいパラダイムを確立するだけでなく、ScanQAやSQA3Dといったベンチマークデータセット上での最先端のゼロショット性能も達成している。
提案手法は,従来の手法よりもシンプルでスケーラブルな3次元インプットと微調整の必要性を効果的に解消する。
関連論文リスト
- Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting [38.678165053219644]
CLIP-Hand3Dと呼ばれるモノクローナル画像から新しい3Dハンドポーズ推定器を提案する。
ここでは,CLIPに基づくコントラスト学習パラダイムに従って,一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
いくつかのパブリックハンドベンチマークの実験では、提案したモデルがはるかに高速な推論速度を達成することが示されている。
論文 参考訳(メタデータ) (2023-09-28T03:40:37Z) - Towards Scalable Multi-View Reconstruction of Geometry and Materials [27.660389147094715]
本稿では,3次元シーンのカメラポーズ,オブジェクト形状,空間変化の両方向反射分布関数(svBRDF)のジョイントリカバリ手法を提案する。
入力は高解像度のRGBD画像であり、アクティブ照明用の点灯付き携帯型ハンドヘルドキャプチャシステムによってキャプチャされる。
論文 参考訳(メタデータ) (2023-06-06T15:07:39Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。