論文の概要: PanSt3R: Multi-view Consistent Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2506.21348v1
- Date: Thu, 26 Jun 2025 15:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.146569
- Title: PanSt3R: Multi-view Consistent Panoptic Segmentation
- Title(参考訳): PanSt3R:マルチビュー・コンシスタント・パン光学セグメンテーション
- Authors: Lojze Zust, Yohann Cabon, Juliette Marrie, Leonid Antsfeld, Boris Chidlovskii, Jerome Revaud, Gabriela Csurka,
- Abstract要約: 我々は、本質的には3Dとマルチビューの問題に対する2次元パノプティクスのセグメンテーションに頼ることが、おそらく最適であると主張している。
そこで我々はPanSt3Rと統合されたアプローチを提案し,テスト時間最適化の必要性を排除した。
PanSt3Rは概念的にはシンプルだが高速でスケーラブルで、いくつかのベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 10.781185925397493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic segmentation of 3D scenes, involving the segmentation and classification of object instances in a dense 3D reconstruction of a scene, is a challenging problem, especially when relying solely on unposed 2D images. Existing approaches typically leverage off-the-shelf models to extract per-frame 2D panoptic segmentations, before optimizing an implicit geometric representation (often based on NeRF) to integrate and fuse the 2D predictions. We argue that relying on 2D panoptic segmentation for a problem inherently 3D and multi-view is likely suboptimal as it fails to leverage the full potential of spatial relationships across views. In addition to requiring camera parameters, these approaches also necessitate computationally expensive test-time optimization for each scene. Instead, in this work, we propose a unified and integrated approach PanSt3R, which eliminates the need for test-time optimization by jointly predicting 3D geometry and multi-view panoptic segmentation in a single forward pass. Our approach builds upon recent advances in 3D reconstruction, specifically upon MUSt3R, a scalable multi-view version of DUSt3R, and enhances it with semantic awareness and multi-view panoptic segmentation capabilities. We additionally revisit the standard post-processing mask merging procedure and introduce a more principled approach for multi-view segmentation. We also introduce a simple method for generating novel-view predictions based on the predictions of PanSt3R and vanilla 3DGS. Overall, the proposed PanSt3R is conceptually simple, yet fast and scalable, and achieves state-of-the-art performance on several benchmarks, while being orders of magnitude faster than existing methods.
- Abstract(参考訳): シーンの高密度な3次元再構成におけるオブジェクトインスタンスのセグメンテーションと分類を含む3次元シーンの光学的セグメンテーションは、特に未提示の2次元画像のみに依存する場合、難しい問題である。
既存のアプローチでは、通常、オフザシェルフモデルを利用してフレームごとの2Dパノプティクスのセグメンテーションを抽出し、暗黙の幾何学的表現(しばしばNeRFに基づく)を最適化し、2Dの予測を統合し、融合する。
本論では,2次元パノプティカルセグメンテーションを本質的に3次元・マルチビューの問題に頼っていることは,ビュー間の空間的関係のポテンシャルを最大限に活用できないため,最適ではないと論じる。
カメラパラメータを必要とすることに加えて、これらのアプローチは各シーンに対して計算に高価なテスト時間最適化を必要とする。
そこで本研究では,PanSt3Rの3次元形状と多視点パノプティックセグメンテーションを同時予測することで,テスト時間最適化の必要性を解消し,統合されたPanSt3Rを提案する。
我々のアプローチは,DUSt3RのスケーラブルなマルチビューバージョンであるMUSt3Rをベースとして,近年の3次元再構成の進歩の上に構築され,セマンティック・アウェアネスとマルチビュー・パノプティック・セグメンテーション機能によって拡張されている。
また,標準的なポストプロセッシングマスクのマージ手順を再検討し,マルチビューセグメンテーションのためのより原則的なアプローチを導入する。
また,PanSt3Rとバニラ3DGSの予測に基づいて,新規ビュー予測を簡易に生成する手法を提案する。
全体として、提案されたPanSt3Rは概念的には単純だが高速でスケーラブルであり、いくつかのベンチマークで最先端のパフォーマンスを実現し、既存のメソッドよりも桁違いに高速である。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction [24.82894136068243]
PanopticRecon++は、新しい横断的視点を通じて、パノプティクスの再構築を定式化するエンドツーエンドのメソッドである。
このパースペクティブは、(クエリとして)3Dインスタンスとシーンの(キーとして)3D埋め込みフィールドの関係を、アテンションマップを通じてモデル化する。
PanopticRecon++は、シミュレーションと実世界のデータセットの両方で、3Dと2Dのセグメンテーションと再構成のパフォーマンスで競合するパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-01-02T07:37:09Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。