論文の概要: Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors
- arxiv url: http://arxiv.org/abs/2111.13309v1
- Date: Fri, 26 Nov 2021 04:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 00:51:22.149845
- Title: Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors
- Title(参考訳): 2次元セグメンテーションプリミティブを用いたデータ強化3次元セマンティックシーン補完
- Authors: Aloisio Dourado, Frederico Guth and Teofilo de Campos
- Abstract要約: 本稿では,新しいマルチモーダル3DディープCNNであるSPAwNを紹介する。
この分野で重要な課題は、完全にラベル付けされた現実世界の3Dデータセットがないことである。
本稿では,マルチモーダルSCネットワークに適用可能な3次元データ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 1.0973642726108543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic scene completion (SSC) is a challenging Computer Vision task with
many practical applications, from robotics to assistive computing. Its goal is
to infer the 3D geometry in a field of view of a scene and the semantic labels
of voxels, including occluded regions. In this work, we present SPAwN, a novel
lightweight multimodal 3D deep CNN that seamlessly fuses structural data from
the depth component of RGB-D images with semantic priors from a bimodal 2D
segmentation network. A crucial difficulty in this field is the lack of fully
labeled real-world 3D datasets which are large enough to train the current
data-hungry deep 3D CNNs. In 2D computer vision tasks, many data augmentation
strategies have been proposed to improve the generalization ability of CNNs.
However those approaches cannot be directly applied to the RGB-D input and
output volume of SSC solutions. In this paper, we introduce the use of a 3D
data augmentation strategy that can be applied to multimodal SSC networks. We
validate our contributions with a comprehensive and reproducible ablation
study. Our solution consistently surpasses previous works with a similar level
of complexity.
- Abstract(参考訳): セマンティック・シーン・コンプリート(ssc)は、ロボティクスからアシストコンピューティングまで、多くの実用的な応用を伴うコンピュータビジョンの課題である。
その目標は、シーンの視野における3次元幾何学と、閉鎖領域を含むボクセルのセマンティックラベルを推論することである。
本研究では,RGB-D画像の奥行き成分から構造データを,バイモーダル2Dセグメンテーションネットワークからのセマンティックプリミティブにシームレスに融合する,軽量なマルチモーダル3DディープCNNであるSPAwNを提案する。
この分野で重要な課題は、現在の3D CNNをトレーニングするのに十分な大きさの、完全にラベル付けされた現実世界の3Dデータセットがないことである。
2次元コンピュータビジョンタスクでは、cnnの一般化能力を向上させるために多くのデータ拡張戦略が提案されている。
しかし、これらのアプローチは、SSCソリューションのRGB-D入力および出力ボリュームに直接適用することはできない。
本稿では,マルチモーダルsscネットワークに適用可能な3次元データ拡張戦略について紹介する。
我々は包括的かつ再現可能なアブレーション研究で貢献を検証した。
私たちのソリューションは、同じレベルの複雑さを持つ以前の作業に一貫して勝ります。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。