論文の概要: OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2509.23541v1
- Date: Sun, 28 Sep 2025 00:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.279649
- Title: OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction
- Title(参考訳): OVSeg3R:2次元から3次元再構成を通してオープン語彙インスタンスセグメンテーションを学ぶ
- Authors: Hongyang Li, Jinyuan Qu, Lei Zhang,
- Abstract要約: OVSeg3Rは、3D再構成の助けを借りて、よく研究された2D知覚モデルからオープン語彙の3Dインスタンスセグメンテーションを学習する。
OVSeg3Rは2Dビデオの再構成シーンを直接入力として採用し、手作業による手作業の調整は避ける。
OVSeg3Rはテールクラスとヘッドクラスのパフォーマンスギャップを著しく狭め、ScanNet200ベンチマークで+2.3 mAPを全体として改善した。
- 参考スコア(独自算出の注目度): 11.617237358347777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a training scheme called OVSeg3R to learn open-vocabulary 3D instance segmentation from well-studied 2D perception models with the aid of 3D reconstruction. OVSeg3R directly adopts reconstructed scenes from 2D videos as input, avoiding costly manual adjustment while aligning input with real-world applications. By exploiting the 2D to 3D correspondences provided by 3D reconstruction models, OVSeg3R projects each view's 2D instance mask predictions, obtained from an open-vocabulary 2D model, onto 3D to generate annotations for the view's corresponding sub-scene. To avoid incorrectly introduced false positives as supervision due to partial annotations from 2D to 3D, we propose a View-wise Instance Partition algorithm, which partitions predictions to their respective views for supervision, stabilizing the training process. Furthermore, since 3D reconstruction models tend to over-smooth geometric details, clustering reconstructed points into representative super-points based solely on geometry, as commonly done in mainstream 3D segmentation methods, may overlook geometrically non-salient objects. We therefore introduce 2D Instance Boundary-aware Superpoint, which leverages 2D masks to constrain the superpoint clustering, preventing superpoints from violating instance boundaries. With these designs, OVSeg3R not only extends a state-of-the-art closed-vocabulary 3D instance segmentation model to open-vocabulary, but also substantially narrows the performance gap between tail and head classes, ultimately leading to an overall improvement of +2.3 mAP on the ScanNet200 benchmark. Furthermore, under the standard open-vocabulary setting, OVSeg3R surpasses previous methods by about +7.1 mAP on the novel classes, further validating its effectiveness.
- Abstract(参考訳): 本稿では,OVSeg3Rと呼ばれる学習手法を提案する。
OVSeg3Rは、2Dビデオの再構成シーンを直接入力として採用し、実際のアプリケーションとインプットを整合させながら、手作業による調整のコストを回避する。
OVSeg3Rは、3次元再構成モデルによって提供される2次元から3次元の対応を利用して、オープン語彙の2Dモデルから得られるビューの2次元のインスタンスマスク予測を3Dに投影し、ビューの対応するサブシーンのアノテーションを生成する。
2Dから3Dへの部分的アノテーションによる監督として誤った偽陽性を導入するのを避けるために、各視点に予測を分割して監督し、トレーニングプロセスを安定化するビューワイズインスタンス分割アルゴリズムを提案する。
さらに、3次元再構成モデルは幾何的細部よりも滑らかな傾向にあるため、主流の3次元分割法でよく見られるように、再構成された点を幾何学のみに基づく代表的スーパーポイントにクラスタリングすることで、幾何学的に非正則な対象を見落としてしまう可能性がある。
これにより、2Dマスクを利用してスーパーポイントクラスタリングを制限し、スーパーポイントがインスタンス境界に違反するのを防ぐことができる。
これらの設計により、OVSeg3Rは最先端のクローズドボキャブラリ3Dインスタンスセグメンテーションモデルをオープンボキャブラリに拡張するだけでなく、テールクラスとヘッドクラスのパフォーマンスギャップを大幅に狭め、最終的にScanNet200ベンチマークにおける+2.3 mAPの全体的な改善につながった。
さらに、標準のオープン語彙設定の下では、OVSeg3Rは、新しいクラスの約7.1 mAPで従来のメソッドを上回り、その有効性を検証している。
関連論文リスト
- Integrating SAM Supervision for 3D Weakly Supervised Point Cloud Segmentation [66.65719382619538]
3Dセマンティックセグメンテーションの現在の手法では、大きな、不規則な、秩序のない3Dポイントクラウドデータの注釈付けの難しさに対処するため、限定アノテーション付きトレーニングモデルが提案されている。
本稿では,2次元基礎モデルから生成したセグメンテーションマスクを組み込んだ,疎可な3次元アノテーションの有用性を最大化する手法を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:13:01Z) - Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos [69.21508595833623]
Ov3Rは、RGBビデオストリームからのセマンティック3D再構成のためのフレームワークである。
CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込みながら、重複するクリップから高密度なポイントマップを予測する。
2D-3D OVSは、空間的、幾何学的、意味的な手がかりを統合した融合記述子を学習することで、2D機能を3Dに持ち上げる。
論文 参考訳(メタデータ) (2025-07-29T17:55:58Z) - SA3DIP: Segment Any 3D Instance with Potential 3D Priors [41.907914881608995]
本稿では,SA3DIPを提案する。SA3DIPは,任意の3Dインスタンスを,潜在的3Dプライオリティを利用してセグメント化するための新しい手法である。
具体的には,幾何学的およびテクスチャ的先行性の両方に基づいて,相補的な3Dプリミティブを生成する。
一方,3次元検出器を用いて3次元空間からの補足制約を導入し,さらなるマージプロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-06T10:39:00Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。