論文の概要: PartSTAD: 2D-to-3D Part Segmentation Task Adaptation
- arxiv url: http://arxiv.org/abs/2401.05906v3
- Date: Fri, 19 Jul 2024 08:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:06:44.455179
- Title: PartSTAD: 2D-to-3D Part Segmentation Task Adaptation
- Title(参考訳): PartSTAD: 2D-to-3D 分割タスク適応
- Authors: Hyunjin Kim, Minhyuk Sung,
- Abstract要約: 2D-to-3Dセグメンテーションリフトのタスク適応を目的としたPartSTADを提案する。
PartNet-Mobilityデータセットに対する実験により,タスク適応手法の大幅な改善が示された。
- 参考スコア(独自算出の注目度): 14.187127662385445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PartSTAD, a method designed for the task adaptation of 2D-to-3D segmentation lifting. Recent studies have highlighted the advantages of utilizing 2D segmentation models to achieve high-quality 3D segmentation through few-shot adaptation. However, previous approaches have focused on adapting 2D segmentation models for domain shift to rendered images and synthetic text descriptions, rather than optimizing the model specifically for 3D segmentation. Our proposed task adaptation method finetunes a 2D bounding box prediction model with an objective function for 3D segmentation. We introduce weights for 2D bounding boxes for adaptive merging and learn the weights using a small additional neural network. Additionally, we incorporate SAM, a foreground segmentation model on a bounding box, to improve the boundaries of 2D segments and consequently those of 3D segmentation. Our experiments on the PartNet-Mobility dataset show significant improvements with our task adaptation approach, achieving a 7.0%p increase in mIoU and a 5.2%p improvement in mAP@50 for semantic and instance segmentation compared to the SotA few-shot 3D segmentation model.
- Abstract(参考訳): 2D-to-3Dセグメンテーションリフトのタスク適応を目的としたPartSTADを提案する。
最近の研究は、2Dセグメンテーションモデルを利用して、数ショット適応による高品質な3Dセグメンテーションを実現するという利点を強調している。
しかし、従来のアプローチでは、3Dセグメンテーションに特化してモデルを最適化するのではなく、レンダリング画像や合成テキスト記述へのドメインシフトのための2次元セグメンテーションモデルの適用に重点を置いていた。
提案手法は,3次元セグメント化のための目的関数を持つ2次元境界ボックス予測モデルを微調整する。
適応的なマージのための2次元バウンディングボックスの重みを導入し、小さな追加ニューラルネットワークを用いて重みを学習する。
さらに,境界ボックス上の前景セグメンテーションモデルであるSAMを組み込んで,2次元セグメンテーションの境界,すなわち3次元セグメンテーションのバウンダリを改善する。
PartNet-Mobilityデータセットを用いた実験では,タスク適応アプローチによる大幅な改善,mIoUの7.0%増加,セマンティックおよびインスタンスセグメンテーションにおけるmAP@50の5.2%向上を実現した。
関連論文リスト
- Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation
through Iterative Mutual Enhancement [12.091735711364239]
本稿では,3次元セマンティックシーン補完と2次元セマンティックセマンティックセグメンテーションを解決するために,IMENet(Iterative Mutual Enhancement Network)を提案する。
IMENetは、後期予測段階で2つのタスクをインタラクティブに洗練します。
提案手法は,3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において,最先端技術である。
論文 参考訳(メタデータ) (2021-06-29T13:34:20Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - 3D Guided Weakly Supervised Semantic Segmentation [27.269847900950943]
本稿では,スパース境界ボックスラベルを利用可能な3次元情報に組み込むことにより,弱教師付き2次元セマンティックセマンティックセマンティックセマンティクスモデルを提案する。
手動で2D-3Dセマンティックス(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
論文 参考訳(メタデータ) (2020-12-01T03:34:15Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。