論文の概要: Virtual Multi-view Fusion for 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2007.13138v1
- Date: Sun, 26 Jul 2020 14:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:11:19.978677
- Title: Virtual Multi-view Fusion for 3D Semantic Segmentation
- Title(参考訳): 3次元意味セグメンテーションのための仮想マルチビュー融合
- Authors: Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian
Brewington, Thomas Funkhouser, Caroline Pantofaru
- Abstract要約: 仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
- 参考スコア(独自算出の注目度): 11.259694096475766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of 3D meshes is an important problem for 3D scene
understanding. In this paper we revisit the classic multiview representation of
3D meshes and study several techniques that make them effective for 3D semantic
segmentation of meshes. Given a 3D mesh reconstructed from RGBD sensors, our
method effectively chooses different virtual views of the 3D mesh and renders
multiple 2D channels for training an effective 2D semantic segmentation model.
Features from multiple per view predictions are finally fused on 3D mesh
vertices to predict mesh semantic segmentation labels. Using the large scale
indoor 3D semantic segmentation benchmark of ScanNet, we show that our virtual
views enable more effective training of 2D semantic segmentation networks than
previous multiview approaches. When the 2D per pixel predictions are aggregated
on 3D surfaces, our virtual multiview fusion method is able to achieve
significantly better 3D semantic segmentation results compared to all prior
multiview approaches and competitive with recent 3D convolution approaches.
- Abstract(参考訳): 3次元メッシュのセマンティックセグメンテーションは3次元シーン理解にとって重要な問題である。
本稿では,従来の3dメッシュのマルチビュー表現を再検討し,メッシュの3dセマンティクスセグメンテーションに有効な手法について検討する。
RGBDセンサから再構成された3Dメッシュを前提として,この3Dメッシュの異なる仮想ビューを効果的に選択し,有効な2Dセマンティックセマンティックセマンティクスモデルをトレーニングするための複数の2Dチャネルをレンダリングする。
複数のビュー毎の予測からの機能は、最終的に3dメッシュ頂点で融合され、メッシュセマンティックセグメンテーションラベルを予測する。
ScanNetの大規模屋内3次元セマンティックセマンティックセマンティクスベンチマークを用いて、仮想ビューは従来のマルチビューアプローチよりも効果的な2次元セマンティクスネットワークのトレーニングを可能にすることを示す。
1ピクセル当たりの2d予測が3d表面に集約されると、仮想マルチビュー融合法は、従来の全てのマルチビューアプローチに比べて大幅に優れた3dセマンティクスセグメンテーション結果を達成でき、最近の3d畳み込みアプローチと競合する。
関連論文リスト
- SAM-guided Graph Cut for 3D Instance Segmentation [63.797612618531346]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Semi-supervised 3D shape segmentation with multilevel consistency and
part substitution [21.075426681857024]
本稿では,ラベル付3次元形状とラベル付3次元データの量から3次元分割を効果的に学習するための半教師付き手法を提案する。
ラベルのないデータに対して,3次元形状の摂動コピー間のネットワーク予測の整合性を確保するために,新しい多レベル整合性損失を提案する。
ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。
論文 参考訳(メタデータ) (2022-04-19T11:48:24Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。