論文の概要: Ψ-Map: Panoptic Surface Integrated Mapping Enables Real2Sim Transfer
- arxiv url: http://arxiv.org/abs/2604.10982v1
- Date: Mon, 13 Apr 2026 04:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.322169
- Title: Ψ-Map: Panoptic Surface Integrated Mapping Enables Real2Sim Transfer
- Title(参考訳): パノプティカルサーフェス統合マッピングでReal2Sim転送が可能に
- Authors: Xuan Yu, Yuxuan Xie, Changjian Jiang, Shichao Zhai, Rong Xiong, Yu Zhang, Yue Wang,
- Abstract要約: 幾何学的強化, エンドツーエンドの汎光学学習, 効率的なレンダリングを統合した包括的フレームワークを提案する。
提案システムは,40FPSを超える推論率を維持しながら,大規模シーンにおいて優れた幾何学的・パノプティックな再現性を実現する。
- 参考スコア(独自算出の注目度): 24.777932568749446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary panoptic reconstruction is essential for advanced robotics perception and simulation. However, existing methods based on 3D Gaussian Splatting (3DGS) often struggle to simultaneously achieve geometric accuracy, coherent panoptic understanding, and real-time inference frequency in large-scale scenes. In this paper, we propose a comprehensive framework that integrates geometric reinforcement, end-to-end panoptic learning, and efficient rendering. First, to ensure physical realism in large-scale environments, we leverage LiDAR data to construct plane-constrained multimodal Gaussian Mixture Models (GMMs) and employ 2D Gaussian surfels as the map representation, enabling high-precision surface alignment and continuous geometric supervision. Building upon this, to overcome the error accumulation and cumbersome cross-frame association inherent in traditional multi-stage panoptic segmentation pipelines, we design a query-guided end-to-end learning architecture. By utilizing a local cross-attention mechanism within the view frustum, the system lifts 2D mask features directly into 3D space, achieving globally consistent panoptic understanding. Finally, addressing the computational bottlenecks caused by high-dimensional semantic features, we introduce Precise Tile Intersection and a Top-K Hard Selection strategy to optimize the rendering pipeline. Experimental results demonstrate that our system achieves superior geometric and panoptic reconstruction quality in large-scale scenes while maintaining an inference rate exceeding 40 FPS, meeting the real-time requirements of robotic control loops.
- Abstract(参考訳): オープン・ボキャブラリ・パノプティック・コンストラクションは、高度なロボット工学の知覚とシミュレーションに不可欠である。
しかし、3Dガウススティング(3DGS)に基づく既存の手法は、大規模なシーンにおいて、幾何学的精度、コヒーレントなパノプティクス理解、リアルタイム推論周波数を同時に達成するのに苦労することが多い。
本稿では,幾何学的強化,エンドツーエンドの汎光学学習,効率的なレンダリングを融合した包括的枠組みを提案する。
まず,大規模環境での物理的現実性を確保するため,平面拘束型多モードガウス混合モデル(GMM)の構築にLiDARデータを活用するとともに,2次元ガウス波を地図表現として利用し,高精度表面アライメントと連続幾何監督を可能にする。
これに基づいて、従来のマルチステージ・パノプティクス・セグメンテーション・パイプラインに固有のエラー蓄積と面倒なクロスフレーム・アソシエーションを克服するために、クエリ誘導のエンドツーエンド学習アーキテクチャを設計する。
ビューフラストラム内の局所的横断機構を利用することで、2Dマスクの機能を3D空間に直接持ち上げ、一貫した汎視的理解を実現する。
最後に,高次元のセマンティックな特徴によって引き起こされる計算ボトルネックに対処するために,精密タイル間断面積と,レンダリングパイプラインを最適化するためのTop-Kハードセレクション戦略を導入する。
実験により,ロボット制御ループのリアルタイム要求を満たすため,40FPSを超える推論率を維持しつつ,大規模シーンにおいて優れた幾何的・単視的再現性を実現することができた。
関連論文リスト
- Fast-SegSim: Real-Time Open-Vocabulary Segmentation for Robotics in Simulation [23.703731324592656]
Fast-SegSimは、2D Gaussian Splatting上に構築された、新しく、シンプルで、エンドツーエンドのフレームワークである。
我々のコアコントリビューションは高度に最適化されたレンダリングパイプラインであり、特にハイチャネルセグメンテーションの計算ボトルネックに対処しています。
Fast-SegSimはロボットアプリケーションにおいて重要な価値を提供し、その3D一貫性のある出力は、不可欠なマルチビューの「地上真実」ラベルを提供する。
論文 参考訳(メタデータ) (2026-04-13T03:49:06Z) - Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning [10.542346290671114]
明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。
このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
論文 参考訳(メタデータ) (2026-04-08T06:47:55Z) - Pano360: Perspective to Panoramic Vision with Geometric Consistency [7.713672589538202]
我々は新しいトランスフォーマーベースのアーキテクチャを採用し、すべての視点で3D認識とグローバル情報を集約する。
評価ベンチマークを確立し,ネットワークをトレーニングするために,実世界のシーンの大規模データセットを構築した。
論文 参考訳(メタデータ) (2026-03-12T14:56:14Z) - C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。