論文の概要: SATR: Zero-Shot Semantic Segmentation of 3D Shapes
- arxiv url: http://arxiv.org/abs/2304.04909v2
- Date: Mon, 21 Aug 2023 00:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:13:53.554977
- Title: SATR: Zero-Shot Semantic Segmentation of 3D Shapes
- Title(参考訳): satr: 3d形状のゼロショット意味セグメンテーション
- Authors: Ahmed Abdelreheem, Ivan Skorokhodov, Maks Ovsjanikov, Peter Wonka
- Abstract要約: 大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
- 参考スコア(独自算出の注目度): 74.08209893396271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the task of zero-shot semantic segmentation of 3D shapes by using
large-scale off-the-shelf 2D image recognition models. Surprisingly, we find
that modern zero-shot 2D object detectors are better suited for this task than
contemporary text/image similarity predictors or even zero-shot 2D segmentation
networks. Our key finding is that it is possible to extract accurate 3D
segmentation maps from multi-view bounding box predictions by using the
topological properties of the underlying surface. For this, we develop the
Segmentation Assignment with Topological Reweighting (SATR) algorithm and
evaluate it on ShapeNetPart and our proposed FAUST benchmarks. SATR achieves
state-of-the-art performance and outperforms a baseline algorithm by 1.3% and
4% average mIoU on the FAUST coarse and fine-grained benchmarks, respectively,
and by 5.2% average mIoU on the ShapeNetPart benchmark. Our source code and
data will be publicly released. Project webpage:
https://samir55.github.io/SATR/.
- Abstract(参考訳): 3次元形状のゼロショット意味セグメンテーションの課題を,大規模市販2次元画像認識モデルを用いて検討する。
驚くべきことに、現代のゼロショット2dオブジェクト検出器は、現代のテキスト/画像類似性予測器やゼロショット2dセグメンテーションネットワークよりもこのタスクに適している。
我々の重要な発見は、基底表面の位相特性を用いて、多視点境界ボックス予測から正確な3次元セグメンテーションマップを抽出できることである。
そこで我々は,Segmentation Assignment with Topological Reweighting (SATR)アルゴリズムを開発し,ShapeNetPartと提案したFAUSTベンチマークを用いて評価を行った。
SATRは最先端のパフォーマンスを達成し、FAUST粗度ベンチマークでは平均mIoUが1.3%、微粒度ベンチマークでは平均mIoUが4%、ShapeNetPartベンチマークでは平均mIoUが5.2%向上する。
ソースコードとデータは公開される予定だ。
プロジェクトWebページ: https://samir55.github.io/SATR/。
関連論文リスト
- Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene
Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。
我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。
我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文 参考訳(メタデータ) (2023-04-14T02:49:08Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。