論文の概要: Class-agnostic 3D Segmentation by Granularity-Consistent Automatic 2D Mask Tracking
- arxiv url: http://arxiv.org/abs/2511.00785v1
- Date: Sun, 02 Nov 2025 03:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.933006
- Title: Class-agnostic 3D Segmentation by Granularity-Consistent Automatic 2D Mask Tracking
- Title(参考訳): 粒度連続2次元マスクトラッキングによるクラス別3次元セグメンテーション
- Authors: Juan Wang, Yasutomo Kawanishi, Tomo Miyazaki, Zhijie Wang, Shinichiro Omachi,
- Abstract要約: 本稿では,フレーム間の時間的対応を維持する2次元マスク追跡手法を提案する。
本手法は, 整合性および高精度な3次元セグメンテーションを効果的に生成する。
- 参考スコア(独自算出の注目度): 10.223105883919278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D instance segmentation is an important task for real-world applications. To avoid costly manual annotations, existing methods have explored generating pseudo labels by transferring 2D masks from foundation models to 3D. However, this approach is often suboptimal since the video frames are processed independently. This causes inconsistent segmentation granularity and conflicting 3D pseudo labels, which degrades the accuracy of final segmentation. To address this, we introduce a Granularity-Consistent automatic 2D Mask Tracking approach that maintains temporal correspondences across frames, eliminating conflicting pseudo labels. Combined with a three-stage curriculum learning framework, our approach progressively trains from fragmented single-view data to unified multi-view annotations, ultimately globally coherent full-scene supervision. This structured learning pipeline enables the model to progressively expose to pseudo-labels of increasing consistency. Thus, we can robustly distill a consistent 3D representation from initially fragmented and contradictory 2D priors. Experimental results demonstrated that our method effectively generated consistent and accurate 3D segmentations. Furthermore, the proposed method achieved state-of-the-art results on standard benchmarks and open-vocabulary ability.
- Abstract(参考訳): 3Dインスタンスのセグメンテーションは、現実世界のアプリケーションにとって重要なタスクである。
コストのかかる手動アノテーションを避けるため,既存の手法では2Dマスクを基礎モデルから3Dに転送することで擬似ラベルを生成する方法が検討されている。
しかし、ビデオフレームは独立して処理されるため、このアプローチはしばしば準最適である。
これにより、矛盾したセグメンテーションの粒度と3D擬似ラベルが衝突し、最終セグメンテーションの精度が低下する。
そこで本研究では,フレーム間の時間的対応を維持し,矛盾する擬似ラベルを除去する2次元マスク追跡手法を提案する。
3段階のカリキュラム学習フレームワークと組み合わせて、断片化された単一ビューデータから統合された多ビューアノテーション、最終的にはグローバルに一貫したフルステージ監視まで、段階的にトレーニングする。
この構造化学習パイプラインは、一貫性を高めるための擬似ラベルを段階的に公開することを可能にする。
したがって、初期断片化と矛盾する2次元先行から、一貫した3次元表現をしっかりと蒸留することができる。
実験結果から,本手法は一貫性と高精度な3次元セグメンテーションを効果的に生成することが示された。
さらに,提案手法は,標準ベンチマークとオープンボキャブラリ能力について,最先端の結果を得た。
関連論文リスト
- Integrating SAM Supervision for 3D Weakly Supervised Point Cloud Segmentation [66.65719382619538]
3Dセマンティックセグメンテーションの現在の手法では、大きな、不規則な、秩序のない3Dポイントクラウドデータの注釈付けの難しさに対処するため、限定アノテーション付きトレーニングモデルが提案されている。
本稿では,2次元基礎モデルから生成したセグメンテーションマスクを組み込んだ,疎可な3次元アノテーションの有用性を最大化する手法を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:13:01Z) - 3D Can Be Explored In 2D: Pseudo-Label Generation for LiDAR Point Clouds Using Sensor-Intensity-Based 2D Semantic Segmentation [3.192308005611312]
そこで我々は,3次元セマンティックセマンティックセマンティクスパイプラインを導入し,アライメントシーンと最先端2次元セマンティクス手法を利用した。
本手法は,センサ強度で色付けされたLiDARスキャンから2次元ビューを生成し,これらのビューに2次元セマンティックセマンティックセグメンテーションを適用した。
分割された2D出力は3Dポイントにバックプロジェクターされ、単純な投票ベースの推定器が使用される。
論文 参考訳(メタデータ) (2025-05-06T08:31:32Z) - OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [36.9859733771263]
ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。
効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。
提案手法は,オンラインのゼロショット3Dインスタンスセグメンテーションにおける最先端の性能と効率を両立させる。
論文 参考訳(メタデータ) (2025-03-03T08:48:06Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - 3D Guided Weakly Supervised Semantic Segmentation [27.269847900950943]
本稿では,スパース境界ボックスラベルを利用可能な3次元情報に組み込むことにより,弱教師付き2次元セマンティックセマンティックセマンティックセマンティクスモデルを提案する。
手動で2D-3Dセマンティックス(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
論文 参考訳(メタデータ) (2020-12-01T03:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。