Fugu-MT 論文翻訳(概要): UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth Estimation

論文の概要: UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth Estimation

arxiv url: http://arxiv.org/abs/2102.03550v1
Date: Sat, 6 Feb 2021 10:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:28:03.742420
Title: UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth Estimation
Title（参考訳）: UniFuse: 360$^{\circ}$パノラマ深さ推定のための一方向核融合
Authors: Hualie Jiang, Zhe Sheng, Siyu Zhu, Zilong Dong, Rui Huang
Abstract要約: 本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
参考スコア（独自算出の注目度）: 11.680475784102308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning depth from spherical panoramas is becoming a popular research topic because a panorama has a full field-of-view of the environment and provides a relatively complete description of a scene. However, applying well-studied CNNs for perspective images to the standard representation of spherical panoramas, i.e., the equirectangular projection, is suboptimal, as it becomes distorted towards the poles. Another representation is the cubemap projection, which is distortion-free but discontinued on edges and limited in the field-of-view. This paper introduces a new framework to fuse features from the two projections, unidirectionally feeding the cubemap features to the equirectangular features only at the decoding stage. Unlike the recent bidirectional fusion approach operating at both the encoding and decoding stages, our fusion scheme is much more efficient. Besides, we also designed a more effective fusion module for our fusion scheme. Experiments verify the effectiveness of our proposed fusion strategy and module, and our model achieves state-of-the-art performance on four popular datasets. Additional experiments show that our model also has the advantages of model complexity and generalization capability.
Abstract（参考訳）: 球状パノラマから深度を学ぶことは、パノラマが環境の完全な視野を持ち、シーンの比較的完全な記述を提供するため、人気のある研究トピックになりつつある。しかし、球面パノラマの標準表現、すなわち等角射影によく研究されたCNNを視点画像に適用することは、極に向かって歪むため、必然的である。もうひとつの表現はキューブマッププロジェクションで、歪みのないがエッジ上で中断され、視野に制限がある。本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークについて紹介する。エンコーディングとデコードの両方の段階で動作する最近の双方向融合アプローチとは異なり、我々の融合スキームはずっと効率的である。さらに、より効果的な核融合モジュールも設計しました。提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。さらなる実験により、我々のモデルはモデルの複雑さと一般化能力の利点も示している。

関連論文リスト

SphereFusion: Efficient Panorama Depth Estimation via Gated Fusion [21.97835451388508]
提案するSphereFusionは,様々なプロジェクション手法の強みを組み合わせたエンドツーエンドフレームワークである。具体的には、SphereFusionは2次元画像畳み込みとメッシュ演算を使用して、同形および球面投影領域のパノラマ画像から2種類の特徴を抽出する。 SphereFusionは,512$times$1024パノラマ画像上で17msで高速な推論速度を示しながら,他の最先端手法と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2025-02-09T11:36:45Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction Framework Based on Panoramic Stereo Images for a Trimming Robot [7.248231584821008]
提案手法は,新たに設計されたパノラマステレオカメラと,3つの融合モジュールからなるハイブリッドソフトウェアフレームワークをベースとした。異方性融合モジュールでは、修正ステレオ画像は、複数のステレオビジョンアルゴリズムを用いて初期異方性マップを生成する。ポーズ融合モジュールは、2段階のグローバル粗大な局所的な戦略を採用する。ボリューム融合モジュールでは、全ノードのグローバルなポーズを使用して、単一視点の雲をボリュームに統合する。
論文参考訳（メタデータ） (2023-05-10T16:15:16Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。 PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文参考訳（メタデータ） (2022-03-22T15:59:44Z)
ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama Depth Estimation [9.670696363730329]
本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-12-29T08:04:19Z)
VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文参考訳（メタデータ） (2021-12-01T02:18:11Z)
LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。 LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。 LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文参考訳（メタデータ） (2021-09-03T03:23:27Z)
RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文参考訳（メタデータ） (2021-03-24T04:24:12Z)
Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文参考訳（メタデータ） (2020-04-28T09:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。