論文の概要: PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion
- arxiv url: http://arxiv.org/abs/2410.10659v1
- Date: Mon, 14 Oct 2024 16:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:25:02.353749
- Title: PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion
- Title(参考訳): PCF-Lift:確率論的コントラスト融合によるパノプティクスリフティング
- Authors: Runsong Zhu, Shi Qiu, Qianyi Wu, Ka-Hei Hui, Pheng-Ann Heng, Chi-Wing Fu,
- Abstract要約: 我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 80.79938369319152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic lifting is an effective technique to address the 3D panoptic segmentation task by unprojecting 2D panoptic segmentations from multi-views to 3D scene. However, the quality of its results largely depends on the 2D segmentations, which could be noisy and error-prone, so its performance often drops significantly for complex scenes. In this work, we design a new pipeline coined PCF-Lift based on our Probabilis-tic Contrastive Fusion (PCF) to learn and embed probabilistic features throughout our pipeline to actively consider inaccurate segmentations and inconsistent instance IDs. Technical-wise, we first model the probabilistic feature embeddings through multivariate Gaussian distributions. To fuse the probabilistic features, we incorporate the probability product kernel into the contrastive loss formulation and design a cross-view constraint to enhance the feature consistency across different views. For the inference, we introduce a new probabilistic clustering method to effectively associate prototype features with the underlying 3D object instances for the generation of consistent panoptic segmentation results. Further, we provide a theoretical analysis to justify the superiority of the proposed probabilistic solution. By conducting extensive experiments, our PCF-lift not only significantly outperforms the state-of-the-art methods on widely used benchmarks including the ScanNet dataset and the challenging Messy Room dataset (4.4% improvement of scene-level PQ), but also demonstrates strong robustness when incorporating various 2D segmentation models or different levels of hand-crafted noise.
- Abstract(参考訳): 多視点から3次元のシーンへ2次元のパノプティクスを投影することで、3次元のパノプティクスセグメンテーションタスクに対処する効果的な手法である。
しかし、結果の質は2Dセグメンテーションに大きく依存しており、ノイズやエラーが発生しやすいため、複雑なシーンでは性能が著しく低下することが多い。
本研究では,不正確なセグメンテーションや一貫性のないインスタンスIDを積極的に検討するために,PCF(Probabilis-tic Contrastive Fusion)をベースとしたPCF-Liftという新しいパイプラインを設計する。
技術的には,まず多変量ガウス分布による確率的特徴埋め込みをモデル化する。
確率的特徴を融合するために、確率積カーネルを対照的な損失の定式化に組み込み、異なるビューにまたがる特徴整合性を高めるために、クロスビュー制約を設計する。
そこで本研究では,プロトタイプ機能と基礎となる3Dオブジェクトインスタンスを効果的に関連付けるための新しい確率的クラスタリング手法を導入し,一貫した汎視的セグメンテーション結果を生成する。
さらに、提案した確率的解の優越性を正当化する理論的解析を行う。
大規模な実験を行うことで、PCFリフトは、ScanNetデータセットや挑戦的なMessy Roomデータセット(4.4%のシーンレベルのPQの改善)など、広く使用されているベンチマークで最先端の手法を著しく上回るだけでなく、様々な2次元セグメンテーションモデルや異なる手作りノイズのレベルを取り入れた場合の強い堅牢性も示します。
関連論文リスト
- Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。
幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文 参考訳(メタデータ) (2024-09-09T08:26:11Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Probabilistic Graph Attention Network with Conditional Kernels for
Pixel-Wise Prediction [158.88345945211185]
本稿では,画素レベルの予測を基本的側面,すなわち,技術の現状を推し進める新たなアプローチを提案する。
構造化されたマルチスケール機能学習と融合。
本論文では,マルチスケール表現を原理的に学習・融合するための新しいアテンテンションゲート条件ランダムフィールド(AG-CRFs)モデルに基づく確率的グラフアテンションネットワーク構造を提案する。
論文 参考訳(メタデータ) (2021-01-08T04:14:29Z) - Deep Probabilistic Feature-metric Tracking [27.137827823264942]
画素単位の深度特徴写像と深度特徴量不確実性写像を学習するための新しいフレームワークを提案する。
CNNは、より高速で信頼性の高い収束のための深い初期ポーズを予測する。
実験により,TUM RGB-Dデータセットと3次元剛性物体追跡データセットの最先端性能が示された。
論文 参考訳(メタデータ) (2020-08-31T11:47:59Z) - End-to-End 3D Multi-Object Tracking and Trajectory Forecasting [34.68114553744956]
3次元MOTと軌道予測の統一解を提案する。
グラフニューラルネットを導入して特徴相互作用技術を採用する。
また,予測トラジェクトリの品質と多様性を向上させるために,多様性サンプリング機能を利用する。
論文 参考訳(メタデータ) (2020-08-25T16:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。