Fugu-MT 論文翻訳(概要): Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion

論文の概要: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion

arxiv url: http://arxiv.org/abs/2403.16376v1
Date: Mon, 25 Mar 2024 02:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 16:17:05.305717
Title: Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion
Title（参考訳）: Elite360D:Semantic- and Distance-Aware Bi-Projection Fusionによる高効率360度深度推定に向けて
Authors: Hao Ai, Lin Wang,
Abstract要約: 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。最近のアプローチは、主に幾何学に基づく再射との相互射影融合に焦点を当てている。本研究では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。
参考スコア（独自算出の注目度）: 5.577935944665
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: 360 depth estimation has recently received great attention for 3D reconstruction owing to its omnidirectional field of view (FoV). Recent approaches are predominantly focused on cross-projection fusion with geometry-based re-projection: they fuse 360 images with equirectangular projection (ERP) and another projection type, e.g., cubemap projection to estimate depth with the ERP format. However, these methods suffer from 1) limited local receptive fields, making it hardly possible to capture large FoV scenes, and 2) prohibitive computational cost, caused by the complex cross-projection fusion module design. In this paper, we propose Elite360D, a novel framework that inputs the ERP image and icosahedron projection (ICOSAP) point set, which is undistorted and spatially continuous. Elite360D is superior in its capacity in learning a representation from a local-with-global perspective. With a flexible ERP image encoder, it includes an ICOSAP point encoder, and a Bi-projection Bi-attention Fusion (B2F) module (totally ~1M parameters). Specifically, the ERP image encoder can take various perspective image-trained backbones (e.g., ResNet, Transformer) to extract local features. The point encoder extracts the global features from the ICOSAP. Then, the B2F module captures the semantic- and distance-aware dependencies between each pixel of the ERP feature and the entire ICOSAP feature set. Without specific backbone design and obvious computational cost increase, Elite360D outperforms the prior arts on several benchmark datasets.
Abstract（参考訳）: 360度深度推定は全方位視野(FoV)による3次元再構成で注目されている。近年のアプローチは、幾何的再射を伴うクロスプロジェクション融合に主に焦点をあてており、等角射影(ERP)と他の射影型(例えば立方体射影)を融合してERPフォーマットで深さを推定している。しかし、これらの方法は苦しむ。 1) 局所受容野が限られており、大規模なFoVシーンの撮影が困難である。 2)複雑な相互投射核融合モジュールの設計による計算コストの禁止。本稿では,ERP画像とICOSAP(ICOSAP)点集合を非歪かつ空間連続的に入力する新しいフレームワークであるElite360Dを提案する。 Elite360Dは、ローカル・ウィズ・グローバルの観点から表現を学ぶ能力において優れている。柔軟なERPイメージエンコーダはICOSAPポイントエンコーダとバイジェクション・バイアテンション・フュージョン(B2F)モジュール(正確には1Mパラメータ)を備える。具体的には、ERPイメージエンコーダは、様々な視点で訓練されたバックボーン(例えば、ResNet、Transformer)を使って局所的な特徴を抽出することができる。ポイントエンコーダはICOSAPからグローバルな特徴を抽出する。次に、B2FモジュールはERP機能の各ピクセルとICOSAP機能セット全体のセマンティックおよび距離認識依存関係をキャプチャする。特定のバックボーン設計と明らかな計算コストの増加なしに、Elite360Dはいくつかのベンチマークデータセットで先行技術を上回っている。

関連論文リスト

360Anything: Geometry-Free Lifting of Images and Videos to 360° [51.50120114305155]
既存のアプローチは、パースペクティブと等方射影空間の間の明示的な幾何学的アライメントに依存している。事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。提案手法は,映像と映像の視点-360生成における最先端性能を実現する。
論文参考訳（メタデータ） (2026-01-22T18:45:59Z)
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation [68.95366581365829]
パノラマ距離深度基礎モデルを提案する。我々は、公開データセット、UE5シミュレーターとテキスト・ツー・イメージ・モデルからの高品質な合成データ、Webからの実際のパノラマ画像を組み合わせることで、大規模なデータセットを収集します。
論文参考訳（メタデータ） (2025-12-18T18:59:29Z)
OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。 OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-10-21T03:24:12Z)
Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。 textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。 textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文参考訳（メタデータ） (2025-10-15T06:37:33Z)
FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention [11.852943231959403]
FastVidarは、魚眼カメラの入力を4つ受け取り、完全な深度マップを360ドル(約3万3000円)で作成する新しいフレームワークだ。ビューをまたいだ機能を効率的に融合する代替階層的注意(AHA)機構を導入する。本稿では,多視点深度推定を共有正方形座標系に投影する新しいERP融合手法を提案する。
論文参考訳（メタデータ） (2025-09-28T08:25:27Z)
PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation [66.00721801098574]
本稿では,ポイントクラウドのセグメンテーションを容易にするために,ビュー依存プロジェクション(VDP)を提案する。 VDPは3Dポイント分布からデータ駆動プロジェクションを生成する。フレームワークを最適化するために色規則化を構築します。
論文参考訳（メタデータ） (2025-07-09T07:44:00Z)
Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration [5.577935944665]
360度カメラは周囲の環境全体をFoVで捉え、3D構造を直接推測するための総合的な視覚情報を表示する。既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。本研究では,深度と表面の正規推定による3次元構造推定とセマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークElite360Mを提案する。
論文参考訳（メタデータ） (2024-08-18T02:33:45Z)
Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文参考訳（メタデータ） (2024-07-02T22:00:32Z)
Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文参考訳（メタデータ） (2024-05-22T14:16:30Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
HRDFuse: Monocular 360{\deg}Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions [16.065889899404848]
我々は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーのポテンシャルを微妙に組み合わせた新しいフレームワーク、textbfHRDFuseを提案する。本手法は, SOTA法よりもスムーズで精度の高い結果が得られる一方で,スムーズで正確な深度を予測できる。
論文参考訳（メタデータ） (2023-03-21T06:26:18Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction [51.96971077984869]
単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
論文参考訳（メタデータ） (2022-09-14T00:08:44Z)
BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360 Depth Estimation [59.11106101006008]
両射影融合と自己学習シナリオの組み合わせを検討するために,BiFuse++を提案する。そこで我々は,BiFuseの性能向上のために,新たな融合モジュールとコントラスト対応測光損失を提案する。
論文参考訳（メタデータ） (2022-09-07T06:24:21Z)
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文参考訳（メタデータ） (2022-05-28T11:22:53Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。