論文の概要: Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2204.07548v1
- Date: Fri, 15 Apr 2022 17:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 12:46:10.647999
- Title: Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation
- Title(参考訳): 大規模3次元セマンティクスセグメンテーションのための野生におけるマルチビューアグリゲーションの学習
- Authors: Damien Robert, Bruno Vallet, Loic Landrieu
- Abstract要約: 近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
- 参考スコア(独自算出の注目度): 3.5939555573102853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works on 3D semantic segmentation propose to exploit the synergy
between images and point clouds by processing each modality with a dedicated
network and projecting learned 2D features onto 3D points. Merging large-scale
point clouds and images raises several challenges, such as constructing a
mapping between points and pixels, and aggregating features between multiple
views. Current methods require mesh reconstruction or specialized sensors to
recover occlusions, and use heuristics to select and aggregate available
images. In contrast, we propose an end-to-end trainable multi-view aggregation
model leveraging the viewing conditions of 3D points to merge features from
images taken at arbitrary positions. Our method can combine standard 2D and 3D
networks and outperforms both 3D models operating on colorized point clouds and
hybrid 2D/3D networks without requiring colorization, meshing, or true depth
maps. We set a new state-of-the-art for large-scale indoor/outdoor semantic
segmentation on S3DIS (74.7 mIoU 6-Fold) and on KITTI-360 (58.3 mIoU). Our full
pipeline is accessible at https://github.com/drprojects/DeepViewAgg, and only
requires raw 3D scans and a set of images and poses.
- Abstract(参考訳): 3Dセマンティックセグメンテーションに関する最近の研究は、各モードを専用ネットワークで処理し、学習した2D機能を3Dポイントに投影することで、画像と点雲の相乗効果を活用することを提案する。
大規模ポイントクラウドとイメージの融合は、ポイントとピクセル間のマッピングの構築や、複数のビュー間の機能の集約など、いくつかの課題を引き起こす。
現在の方法では、咬合を回復するためにメッシュ再構成や特殊なセンサーが必要であり、ヒューリスティックスを使って利用可能な画像を選択し集約する。
対照的に、任意の位置で撮影された画像から特徴をマージするために、3Dポイントの視聴条件を利用するエンドツーエンドのトレーニング可能なマルチビューアグリゲーションモデルを提案する。
提案手法は,標準的な2Dおよび3Dネットワークを組み合わせることで,カラー化,メッシュ化,あるいは真の深度マップを必要とせずに,カラー化点雲とハイブリッド2D/3Dネットワークで動作する3Dモデルの両方より優れる。
S3DIS (74.7 mIoU 6-Fold) と KITTI-360 (58.3 mIoU) に, 大規模屋内・屋外セマンティックセマンティックセマンティックセグメンテーションのための新しい最先端技術を構築した。
私たちの完全なパイプラインはhttps://github.com/drprojects/DeepViewAggでアクセスできます。
関連論文リスト
- SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network [17.58032517457836]
ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-17T20:24:26Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - Learning 3D Semantic Segmentation with only 2D Image Supervision [18.785840615548473]
多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-21T17:56:28Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。