論文の概要: Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion
- arxiv url: http://arxiv.org/abs/2306.04633v2
- Date: Fri, 1 Dec 2023 19:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:06:06.755133
- Title: Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion
- Title(参考訳): コントラストリフト:低速コントラスト融合による3次元オブジェクトインスタンスのセグメンテーション
- Authors: Yash Bhalgat, Iro Laina, Jo\~ao F. Henriques, Andrew Zisserman, Andrea
Vedaldi
- Abstract要約: 本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
- 参考スコア(独自算出の注目度): 110.84357383258818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation in 3D is a challenging task due to the lack of
large-scale annotated datasets. In this paper, we show that this task can be
addressed effectively by leveraging instead 2D pre-trained models for instance
segmentation. We propose a novel approach to lift 2D segments to 3D and fuse
them by means of a neural field representation, which encourages multi-view
consistency across frames. The core of our approach is a slow-fast clustering
objective function, which is scalable and well-suited for scenes with a large
number of objects. Unlike previous approaches, our method does not require an
upper bound on the number of objects or object tracking across frames. To
demonstrate the scalability of the slow-fast clustering, we create a new
semi-realistic dataset called the Messy Rooms dataset, which features scenes
with up to 500 objects per scene. Our approach outperforms the state-of-the-art
on challenging scenes from the ScanNet, Hypersim, and Replica datasets, as well
as on our newly created Messy Rooms dataset, demonstrating the effectiveness
and scalability of our slow-fast clustering method.
- Abstract(参考訳): 3Dのインスタンスセグメンテーションは、大規模なアノテートデータセットが欠如しているため、難しいタスクである。
本稿では, 実例分割のための2次元事前学習モデルを活用することで, この課題を効果的に解決できることを示す。
本稿では,2次元セグメントを3次元に昇降させ,フレーム間の多視点整合性を促進するニューラルフィールド表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
従来の手法とは違って,本手法では,オブジェクト数やフレーム間のオブジェクト追跡の上限は不要である。
スローファストクラスタリングのスケーラビリティを示すために、メッシールームデータセットと呼ばれる、シーン毎に最大500オブジェクトのシーンを特徴とする、新しい半現実的なデータセットを作成しました。
当社のアプローチは、scannetやhypersim、レプリカデータセットといった困難な場面や、新たに作成された乱雑な部屋データセットの最先端を上回っており、低速クラスタリング手法の有効性とスケーラビリティを実証しています。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point
Clouds [4.709764624933227]
OGCと呼ばれる最初の教師なしの手法を提案し、同時に複数の3Dオブジェクトを1つの前方通過で識別する。
提案手法を5つのデータセット上で広範囲に評価し,オブジェクト部分のインスタンスセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-10T07:01:08Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。