論文の概要: Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration
- arxiv url: http://arxiv.org/abs/2408.09336v1
- Date: Sun, 18 Aug 2024 02:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:09:49.069188
- Title: Elite360M: Efficient 360 Multi-task Learning via Bi-projection Fusion and Cross-task Collaboration
- Title(参考訳): Elite360M:バイプロジェクション融合とクロスタスク協調による360度マルチタスク学習
- Authors: Hao Ai, Lin Wang,
- Abstract要約: 360度カメラは周囲の環境全体をFoVで捉え、3D構造を直接推測するための総合的な視覚情報を表示する。
既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。
本研究では,深度と表面の正規推定による3次元構造推定とセマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークElite360Mを提案する。
- 参考スコア(独自算出の注目度): 5.577935944665
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 360 cameras capture the entire surrounding environment with a large FoV, exhibiting comprehensive visual information to directly infer the 3D structures, e.g., depth and surface normal, and semantic information simultaneously. Existing works predominantly specialize in a single task, leaving multi-task learning of 3D geometry and semantics largely unexplored. Achieving such an objective is, however, challenging due to: 1) inherent spherical distortion of planar equirectangular projection (ERP) and insufficient global perception induced by 360 image's ultra-wide FoV; 2) non-trivial progress in effectively merging geometry and semantics among different tasks to achieve mutual benefits. In this paper, we propose a novel end-to-end multi-task learning framework, named Elite360M, capable of inferring 3D structures via depth and surface normal estimation, and semantics via semantic segmentation simultaneously. Our key idea is to build a representation with strong global perception and less distortion while exploring the inter- and cross-task relationships between geometry and semantics. We incorporate the distortion-free and spatially continuous icosahedron projection (ICOSAP) points and combine them with ERP to enhance global perception. With a negligible cost, a Bi-projection Bi-attention Fusion module is thus designed to capture the semantic- and distance-aware dependencies between each pixel of the region-aware ERP feature and the ICOSAP point feature set. Moreover, we propose a novel Cross-task Collaboration module to explicitly extract task-specific geometric and semantic information from the learned representation to achieve preliminary predictions. It then integrates the spatial contextual information among tasks to realize cross-task fusion. Extensive experiments demonstrate the effectiveness and efficacy of Elite360M.
- Abstract(参考訳): 360カメラは周囲の環境全体を大きなFoVで捉え、3D構造を直接推測するための総合的な視覚情報、例えば深さと表面の正常さ、およびセマンティック情報を同時に提示する。
既存の作品は、主に1つのタスクに特化しており、3次元幾何学と意味論のマルチタスク学習はほとんど探索されていない。
しかし、このような目的を達成することは、以下によって困難である。
1) 平面等角射影(ERP)の固有球面歪みと360度画像の超広視野FoVによる大域的認識の不十分
2) 相互利益を達成するために, 異なるタスク間の幾何学的・意味論を効果的に融合させる非自明な進歩。
本稿では,深度と表面の正規推定による3次元構造推定と,セマンティックセグメンテーションによるセマンティックスを同時に行うことができる,新しいエンドツーエンドマルチタスク学習フレームワークであるElite360Mを提案する。
我々のキーとなる考え方は、幾何学と意味論の相互および横断的な関係を探求しながら、強いグローバルな認識と歪みの少ない表現を構築することである。
我々は、歪みのない、空間的に連続するイコサヘドロン射影(ICOSAP)の点を取り入れ、ERPと組み合わせて世界的知覚を高める。
これにより、領域対応ERP機能とICOSAPポイント機能セットの各ピクセル間のセマンティック・アンド・距離対応の依存関係をキャプチャするために、Bi-Projection Bi-attention Fusionモジュールが設計される。
さらに,学習した表現からタスク固有の幾何学的・意味的な情報を明示的に抽出し,事前予測を行うクロスタスク協調モジュールを提案する。
その後、タスク間で空間的コンテキスト情報を統合して、タスク間の融合を実現する。
大規模な実験は、Elite360Mの有効性と有効性を示した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文 参考訳(メタデータ) (2024-01-21T06:47:33Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。