論文の概要: FreDSNet: Joint Monocular Depth and Semantic Segmentation with Fast
Fourier Convolutions
- arxiv url: http://arxiv.org/abs/2210.01595v1
- Date: Tue, 4 Oct 2022 13:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:43:51.388567
- Title: FreDSNet: Joint Monocular Depth and Semantic Segmentation with Fast
Fourier Convolutions
- Title(参考訳): FreDSNet:高速フーリエ畳み込みによる単分子深度とセマンティックセグメンテーション
- Authors: Bruno Berenguel-Baeta, Jesus Bermudez-Cameo and Jose J. Guerrero
- Abstract要約: FreDSNetは、単一のパノラマから屋内環境のセマンティック3D理解を得るディープラーニングソリューションである。
頻繁な領域における畳み込みを利用して、各畳み込み層においてより広い受容場を得る。
FreDSNetは単一パノラマ画像からの単眼深度推定とセマンティックセグメンテーションを共同で提供する最初のネットワークである。
- 参考スコア(独自算出の注目度): 4.4001997656525305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we present FreDSNet, a deep learning solution which obtains
semantic 3D understanding of indoor environments from single panoramas.
Omnidirectional images reveal task-specific advantages when addressing scene
understanding problems due to the 360-degree contextual information about the
entire environment they provide. However, the inherent characteristics of the
omnidirectional images add additional problems to obtain an accurate detection
and segmentation of objects or a good depth estimation. To overcome these
problems, we exploit convolutions in the frequential domain obtaining a wider
receptive field in each convolutional layer. These convolutions allow to
leverage the whole context information from omnidirectional images. FreDSNet is
the first network that jointly provides monocular depth estimation and semantic
segmentation from a single panoramic image exploiting fast Fourier
convolutions. Our experiments show that FreDSNet has similar performance as
specific state of the art methods for semantic segmentation and depth
estimation. FreDSNet code is publicly available in
https://github.com/Sbrunoberenguel/FreDSNet
- Abstract(参考訳): 本研究では,単一パノラマから室内環境のセマンティックな3次元理解を得る深層学習ソリューションFreDSNetを提案する。
全方位画像は、環境全体に関する360度のコンテキスト情報により、シーン理解の問題に対処する際のタスク固有の利点を明らかにする。
しかしながら、全方位画像の固有特性は、オブジェクトの正確な検出と分割、あるいは深さ推定を得るための追加的な問題をもたらす。
これらの問題を克服するために,各畳み込み層においてより広い受容場を得るために,頻繁領域の畳み込みを利用する。
これらの畳み込みにより、全方位画像からコンテキスト情報全体を活用できる。
FreDSNetは、高速フーリエ畳み込みを利用した単一パノラマ画像からの単眼深度推定とセマンティックセグメンテーションを共同で提供する最初のネットワークである。
実験の結果,FreDSNetはセマンティックセグメンテーションと深度推定のための工法と類似した性能を有することがわかった。
FreDSNetのコードはhttps://github.com/Sbrunoberenguel/FreDSNetで公開されている。
関連論文リスト
- Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - TORNADO-Net: mulTiview tOtal vaRiatioN semAntic segmentation with
Diamond inceptiOn module [23.112192919085825]
TORNADO-Netは、3D LiDARポイントクラウドセマンティックセグメンテーションのためのニューラルネットワークである。
我々は、エンコーダデコーダResNetアーキテクチャを用いて、多視点(バードアイとレンジ)投影特徴抽出を組み込んだ。
また、LiDARデータは360度視野を包含し、円形のパディングを使用するという事実も活用する。
論文 参考訳(メタデータ) (2020-08-24T16:32:41Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。