論文の概要: POMA-3D: The Point Map Way to 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.16567v1
- Date: Thu, 20 Nov 2025 17:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.753762
- Title: POMA-3D: The Point Map Way to 3D Scene Understanding
- Title(参考訳): POMA-3D:3Dシーン理解のためのポイントマップ
- Authors: Ye Mao, Weixun Luo, Ranran Huang, Junpeng Jing, Krystian Mikolajczyk,
- Abstract要約: ポイントマップは、構造化された2Dグリッド上の明示的な3D座標を符号化する。
リッチな2DプリエントをPOMA-3Dに転送するために、ビュー・ツー・シーンアライメント戦略が設計されている。
統合埋め込み予測アーキテクチャであるPOMA-JEPAは、幾何的に一貫した点マップ機能を複数のビューで実行している。
- 参考スコア(独自算出の注目度): 20.492325896478555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce POMA-3D, the first self-supervised 3D representation model learned from point maps. Point maps encode explicit 3D coordinates on a structured 2D grid, preserving global 3D geometry while remaining compatible with the input format of 2D foundation models. To transfer rich 2D priors into POMA-3D, a view-to-scene alignment strategy is designed. Moreover, as point maps are view-dependent with respect to a canonical space, we introduce POMA-JEPA, a joint embedding-predictive architecture that enforces geometrically consistent point map features across multiple views. Additionally, we introduce ScenePoint, a point map dataset constructed from 6.5K room-level RGB-D scenes and 1M 2D image scenes to facilitate large-scale POMA-3D pretraining. Experiments show that POMA-3D serves as a strong backbone for both specialist and generalist 3D understanding. It benefits diverse tasks, including 3D question answering, embodied navigation, scene retrieval, and embodied localization, all achieved using only geometric inputs (i.e., 3D coordinates). Overall, our POMA-3D explores a point map way to 3D scene understanding, addressing the scarcity of pretrained priors and limited data in 3D representation learning. Project Page: https://matchlab-imperial.github.io/poma3d/
- Abstract(参考訳): 本稿では,ポイントマップから学習した最初の自己教師型3D表現モデルであるPOMA-3Dを紹介する。
ポイントマップは、構造化された2Dグリッド上の明示的な3D座標を符号化し、グローバルな3D幾何学を保存すると同時に、2D基礎モデルの入力形式と互換性を保つ。
リッチな2DプリエントをPOMA-3Dに転送するために、ビュー・ツー・シーンアライメント戦略が設計されている。
さらに、点マップが標準空間に対してビューに依存しているため、複数のビューにまたがる幾何学的に一貫した点マップ機能を実装する統合埋め込み予測アーキテクチャであるPOMA-JEPAを導入する。
さらに,6.5K部屋レベルのRGB-Dシーンと,大規模POMA-3D事前学習を容易にする1M 2D画像シーンで構成されたポイントマップデータセットであるScenePointを紹介した。
実験により、POMA-3Dは専門家とジェネラリストの両方の3D理解の強力なバックボーンとして機能していることが示された。
3D質問応答、エンボディドナビゲーション、シーン検索、エンボディドローカライゼーションといった多様なタスクを、幾何学的入力(つまり3D座標)のみで実現している。
総合的にPOMA-3Dは3次元シーン理解のためのポイントマップを探索し,事前学習の不足と3次元表現学習における限られたデータの不足に対処する。
Project Page: https://matchlab-imperial.github.io/poma3d/
関連論文リスト
- PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding [43.69203194188852]
PanoGrounderは、多モードパノラマ表現と事前訓練された2D VLMを結合して、強力な視覚言語推論を行う、一般化可能な3DVGフレームワークである。
シーンレイアウトと幾何学を考慮したパノラマ視点をコンパクトに配置する3段階パイプラインを考案する。
提案手法は, ScanRefer と Nr3D の最先端結果を実現し, 未知の3次元データセットやテキストの言い換えに優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-24T03:18:51Z) - FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views [52.02871618456553]
FLEGは、言語に埋め込まれた3Dガウシアンをあらゆる視点から再構築するフィードフォワードネットワークである。
任意の非校正画像から2次元から3次元へのリフトのための3Dアノテーションのないトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-19T13:04:13Z) - DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction [67.13370009386635]
そこで,Dual Point Map (DualPM)を導入し,同じ画像一点関連画素からオブジェクト上の3D位置へ,残りのポーズでオブジェクトの標準バージョンへ,一対の点マップを抽出する。
3次元再構成と3次元ポーズ推定はDualPMの予測に還元できることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:59:48Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D
Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。
提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T17:56:49Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。