論文の概要: Contrastive Language-Colored Pointmap Pretraining for Unified 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2604.02546v1
- Date: Thu, 02 Apr 2026 21:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.222847
- Title: Contrastive Language-Colored Pointmap Pretraining for Unified 3D Scene Understanding
- Title(参考訳): コントラスト言語を用いた3次元シーン理解のためのポイントマップ事前学習
- Authors: Ye Mao, Weixun Luo, Ranran Huang, Junpeng Jing, Krystian Mikolajczyk,
- Abstract要約: マルチビュー色付きポイントマップからシーンの統一表現を学習するトランスフォーマーベースのエンコーダUniScene3Dを提案する。
ロバストな色付きポイントマップ表現学習には、新しいクロスビュー幾何アライメントと接地されたビューアライメントを導入する。
これらの結果は,統一的な3次元シーン理解のためのアプローチの有効性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 20.492325896478555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretraining 3D encoders by aligning with Contrastive Language Image Pretraining (CLIP) has emerged as a promising direction to learn generalizable representations for 3D scene understanding. In this paper, we propose UniScene3D, a transformer-based encoder that learns unified scene representations from multi-view colored pointmaps, jointly modeling image appearance and geometry. For robust colored pointmap representation learning, we introduce novel cross-view geometric alignment and grounded view alignment to enforce cross-view geometry and semantic consistency. Extensive low-shot and task-specific fine-tuning evaluations on viewpoint grounding, scene retrieval, scene type classification, and 3D VQA demonstrate our state-of-the-art performance. These results highlight the effectiveness of our approach for unified 3D scene understanding. https://yebulabula.github.io/UniScene3D/
- Abstract(参考訳): コントラスト言語画像事前学習(CLIP)との整合による3Dエンコーダの事前学習は、3Dシーン理解のための一般化可能な表現を学習するための有望な方向として現れている。
本論文では,多視点色付きポイントマップから一意なシーン表現を学習し,画像の外観と幾何学を共同でモデル化するトランスフォーマーベースのエンコーダUniScene3Dを提案する。
ロバストな色付きポイントマップ表現学習のために、クロスビュー幾何アライメントと接地ビューアライメントを導入し、クロスビュー幾何とセマンティック一貫性を強制する。
視点のグラウンドニング,シーン検索,シーンタイプ分類,3D VQAに基づく広汎な低ショットおよびタスク固有の微調整評価は,我々の最先端性能を実証する。
これらの結果は,統一的な3次元シーン理解のためのアプローチの有効性を浮き彫りにした。
https://yebulabula.github.io/UniScene3D/
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Learning 3D Scene Analogies with Neural Contextual Scene Maps [17.545689536966265]
3Dシーンの類似は、空間的関係を整列する3Dシーン領域間の滑らかなマップである。
本稿では,意味的および幾何学的文脈を要約した記述体フィールドを抽出する,ニューラルネットワークによるシーンマップを提案する。
様々な屋内シーンにおけるシーンの類似点の同定と軌跡の伝達におけるアプローチの有効性を実験により実証した。
論文 参考訳(メタデータ) (2025-03-20T06:49:33Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。