論文の概要: Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes
- arxiv url: http://arxiv.org/abs/2505.01726v2
- Date: Mon, 26 May 2025 16:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.823801
- Title: Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes
- Title(参考訳): 階層型ニューラルプロセスを用いた確率論的インタラクティブ3次元セグメンテーション
- Authors: Jie Liu, Pan Zhou, Zehao Xiao, Jiayi Shen, Wenzhe Yin, Jan-Jakob Sonke, Efstratios Gavves,
- Abstract要約: 本稿では,これらの課題に対処するためのニューラル・プロセス(NP)に基づく新しい確率的フレームワークNPISeg3Dを提案する。
NPISeg3Dは、シーン固有およびオブジェクト固有の潜在変数を持つ階層的な潜在変数構造を導入し、少数ショットの一般化を強化している。
我々は,オブジェクト固有の潜伏変数を用いたクリックプロトタイプを適応的に変調するプロトタイプモジュレータを設計し,オブジェクト認識コンテキストをキャプチャするモデルの能力を向上させる。
- 参考スコア(独自算出の注目度): 71.2827490406779
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interactive 3D segmentation has emerged as a promising solution for generating accurate object masks in complex 3D scenes by incorporating user-provided clicks. However, two critical challenges remain underexplored: (1) effectively generalizing from sparse user clicks to produce accurate segmentation, and (2) quantifying predictive uncertainty to help users identify unreliable regions. In this work, we propose NPISeg3D, a novel probabilistic framework that builds upon Neural Processes (NPs) to address these challenges. Specifically, NPISeg3D introduces a hierarchical latent variable structure with scene-specific and object-specific latent variables to enhance few-shot generalization by capturing both global context and object-specific characteristics. Additionally, we design a probabilistic prototype modulator that adaptively modulates click prototypes with object-specific latent variables, improving the model's ability to capture object-aware context and quantify predictive uncertainty. Experiments on four 3D point cloud datasets demonstrate that NPISeg3D achieves superior segmentation performance with fewer clicks while providing reliable uncertainty estimations.
- Abstract(参考訳): インタラクティブな3Dセグメンテーションは、ユーザが提供するクリックを組み込むことで、複雑な3Dシーンで正確なオブジェクトマスクを生成するための有望なソリューションとして登場した。
しかし,(1) 精度の高いセグメンテーションを実現するために, まばらなユーザクリックを効果的に一般化すること,(2) 信頼できない地域を特定するために予測の不確実性を定量化すること,の2つの重要な課題がまだ探索されていない。
本研究では,これらの課題に対処するためのニューラル・プロセス(NP)に基づく新しい確率的フレームワークであるNPISeg3Dを提案する。
具体的には、NPISeg3Dはシーン特化変数とオブジェクト特化変数を持つ階層型潜在変数構造を導入し、グローバルコンテキストとオブジェクト特化特性の両方をキャプチャすることで、少数ショットの一般化を強化する。
さらに,オブジェクト固有の潜伏変数でクリックプロトタイプを適応的に変調する確率的プロトタイプ変調器を設計し,オブジェクト認識コンテキストを捕捉し,予測の不確かさを定量化するモデルの能力を向上させる。
4つの3Dポイントクラウドデータセットの実験により、NPISeg3Dは、精度の高いセグメンテーション性能を、より少ないクリックで達成し、信頼性の高い不確実性推定を提供することを示した。
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。