論文の概要: Neural Contourlet Network for Monocular 360 Depth Estimation
- arxiv url: http://arxiv.org/abs/2208.01817v1
- Date: Wed, 3 Aug 2022 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:35:59.210027
- Title: Neural Contourlet Network for Monocular 360 Depth Estimation
- Title(参考訳): 単分子360度深度推定のためのニューラルネットワーク
- Authors: Zhijie Shen, Chunyu Lin, Lang Nie, Kang Liao, and Yao Zhao
- Abstract要約: 我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
- 参考スコア(独自算出の注目度): 37.82642960470551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a monocular 360 image, depth estimation is a challenging because the
distortion increases along the latitude. To perceive the distortion, existing
methods devote to designing a deep and complex network architecture. In this
paper, we provide a new perspective that constructs an interpretable and sparse
representation for a 360 image. Considering the importance of the geometric
structure in depth estimation, we utilize the contourlet transform to capture
an explicit geometric cue in the spectral domain and integrate it with an
implicit cue in the spatial domain. Specifically, we propose a neural
contourlet network consisting of a convolutional neural network and a
contourlet transform branch. In the encoder stage, we design a spatial-spectral
fusion module to effectively fuse two types of cues. Contrary to the encoder,
we employ the inverse contourlet transform with learned low-pass subbands and
band-pass directional subbands to compose the depth in the decoder. Experiments
on the three popular panoramic image datasets demonstrate that the proposed
approach outperforms the state-of-the-art schemes with faster convergence. Code
is available at
https://github.com/zhijieshen-bjtu/Neural-Contourlet-Network-for-MODE.
- Abstract(参考訳): 単眼の360度画像では、緯度に沿って歪みが増加するため、深度推定は難しい。
歪みを認識するために、既存の手法は深く複雑なネットワークアーキテクチャを設計することに専念した。
本稿では,360度画像に対する解釈可能かつスパースな表現を構成する新しい視点を提供する。
深さ推定における幾何学的構造の重要性を考慮して,スペクトル領域における明示的な幾何学的手がかりを捉え,空間領域における暗黙的手がかりと統合する。
具体的には,畳み込みニューラルネットワークと畳み込み変換分岐からなるニューラルネットワークを提案する。
エンコーダ段階では、2種類のキューを効果的に融合する空間スペクトル融合モジュールを設計する。
エンコーダとは対照的に、学習した低域サブバンドと帯域通過方向サブバンドを持つ逆コントラル変換を用いてデコーダの深さを構成する。
3つの一般的なパノラマ画像データセットに関する実験は、提案手法がより高速な収束で最先端のスキームを上回ることを示している。
コードはhttps://github.com/zhijieshen-bjtu/Neural-Contourlet-Network-for-MODEで公開されている。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - HYVE: Hybrid Vertex Encoder for Neural Distance Fields [9.40036617308303]
本稿では,1つの前方パスにおける3次元形状の正確な符号化に適したニューラルネットワークアーキテクチャを提案する。
我々のネットワークは、非ゼロ距離値や形状占有の事前知識を明示することなく、有効な符号付き距離場を出力することができる。
論文 参考訳(メタデータ) (2023-10-10T14:07:37Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation [9.670696363730329]
本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。
仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-29T08:04:19Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。