論文の概要: UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation
- arxiv url: http://arxiv.org/abs/2102.03550v1
- Date: Sat, 6 Feb 2021 10:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:28:03.742420
- Title: UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation
- Title(参考訳): UniFuse: 360$^{\circ}$パノラマ深さ推定のための一方向核融合
- Authors: Hualie Jiang, Zhe Sheng, Siyu Zhu, Zilong Dong, Rui Huang
- Abstract要約: 本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 11.680475784102308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning depth from spherical panoramas is becoming a popular research topic
because a panorama has a full field-of-view of the environment and provides a
relatively complete description of a scene. However, applying well-studied CNNs
for perspective images to the standard representation of spherical panoramas,
i.e., the equirectangular projection, is suboptimal, as it becomes distorted
towards the poles. Another representation is the cubemap projection, which is
distortion-free but discontinued on edges and limited in the field-of-view.
This paper introduces a new framework to fuse features from the two
projections, unidirectionally feeding the cubemap features to the
equirectangular features only at the decoding stage. Unlike the recent
bidirectional fusion approach operating at both the encoding and decoding
stages, our fusion scheme is much more efficient. Besides, we also designed a
more effective fusion module for our fusion scheme. Experiments verify the
effectiveness of our proposed fusion strategy and module, and our model
achieves state-of-the-art performance on four popular datasets. Additional
experiments show that our model also has the advantages of model complexity and
generalization capability.
- Abstract(参考訳): 球状パノラマから深度を学ぶことは、パノラマが環境の完全な視野を持ち、シーンの比較的完全な記述を提供するため、人気のある研究トピックになりつつある。
しかし、球面パノラマの標準表現、すなわち等角射影によく研究されたCNNを視点画像に適用することは、極に向かって歪むため、必然的である。
もうひとつの表現はキューブマッププロジェクションで、歪みのないがエッジ上で中断され、視野に制限がある。
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークについて紹介する。
エンコーディングとデコードの両方の段階で動作する最近の双方向融合アプローチとは異なり、我々の融合スキームはずっと効率的である。
さらに、より効果的な核融合モジュールも設計しました。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
さらなる実験により、我々のモデルはモデルの複雑さと一般化能力の利点も示している。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction
Framework Based on Panoramic Stereo Images for a Trimming Robot [7.248231584821008]
提案手法は,新たに設計されたパノラマステレオカメラと,3つの融合モジュールからなるハイブリッドソフトウェアフレームワークをベースとした。
異方性融合モジュールでは、修正ステレオ画像は、複数のステレオビジョンアルゴリズムを用いて初期異方性マップを生成する。
ポーズ融合モジュールは、2段階のグローバル粗大な局所的な戦略を採用する。
ボリューム融合モジュールでは、全ノードのグローバルなポーズを使用して、単一視点の雲をボリュームに統合する。
論文 参考訳(メタデータ) (2023-05-10T16:15:16Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation [9.670696363730329]
本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。
仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-29T08:04:19Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。