論文の概要: MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors
- arxiv url: http://arxiv.org/abs/2512.15577v1
- Date: Wed, 17 Dec 2025 16:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.06056
- Title: MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors
- Title(参考訳): MoonSeg3R: モノクロのオンラインゼロショットセグメンテーション
- Authors: Zhipeng Du, Duolikun Danier, Jan Eric Lenssen, Hakan Bilen,
- Abstract要約: オンラインのゼロショットモノクロ3Dインスタンスセグメンテーションに焦点をあてる。
我々は,最近のリコンストラクティブ・ファンデーション・モデル(RFM)であるCUT3Rを活用し,単一のRGBストリームから信頼性の高い幾何学的先行情報を提供する。
ScanNet200とSceneNNの実験では、MoonSeg3Rがオンラインモノクロ3Dセグメンテーションを可能にする最初の方法であることが示されている。
- 参考スコア(独自算出の注目度): 40.20155078065184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on online zero-shot monocular 3D instance segmentation, a novel practical setting where existing approaches fail to perform because they rely on posed RGB-D sequences. To overcome this limitation, we leverage CUT3R, a recent Reconstructive Foundation Model (RFM), to provide reliable geometric priors from a single RGB stream. We propose MoonSeg3R, which introduces three key components: (1) a self-supervised query refinement module with spatial-semantic distillation that transforms segmentation masks from 2D visual foundation models (VFMs) into discriminative 3D queries; (2) a 3D query index memory that provides temporal consistency by retrieving contextual queries; and (3) a state-distribution token from CUT3R that acts as a mask identity descriptor to strengthen cross-frame fusion. Experiments on ScanNet200 and SceneNN show that MoonSeg3R is the first method to enable online monocular 3D segmentation and achieves performance competitive with state-of-the-art RGB-D-based systems. Code and models will be released.
- Abstract(参考訳): 本稿では,既存のRGB-Dシークエンスに頼っているため,既存のアプローチでは実行できないような,オンラインのゼロショットモノクロ3Dインスタンスセグメンテーションに注目した。
この制限を克服するために、最近の再構成基礎モデル(RFM)であるCUT3Rを活用し、単一のRGBストリームから信頼できる幾何学的事前情報を提供する。
提案するMoonSeg3Rは,(1)セグメント化マスクを2次元視覚基礎モデル(VFM)から識別可能な3次元クエリに変換する空間意味蒸留モジュール,(2)コンテキストクエリの検索による時間的一貫性を提供する3次元クエリインデックスメモリ,(3)マスクID記述子として機能するCUT3Rのステートディストリビューショントークン,の3つの重要な構成要素を紹介する。
ScanNet200とSceneNNの実験によると、MoonSeg3Rはオンラインのモノクロ3Dセグメンテーションを可能にする最初の方法であり、最先端のRGB-Dベースのシステムと競合する性能を実現する。
コードとモデルはリリースされる。
関連論文リスト
- OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [36.9859733771263]
ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。
効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。
提案手法は,オンラインのゼロショット3Dインスタンスセグメンテーションにおける最先端の性能と効率を両立させる。
論文 参考訳(メタデータ) (2025-03-03T08:48:06Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。