論文の概要: Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network
- arxiv url: http://arxiv.org/abs/2204.08084v1
- Date: Sun, 17 Apr 2022 20:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 16:05:06.196843
- Title: Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full
Attention Network
- Title(参考訳): 階層型フルアテンションネットワークを用いたポーズノイズ2次元画像からの3次元意味学習
- Authors: Yuhang He, Lin Chen, Junkun Xie, Long Chen
- Abstract要約: ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
階層型フルアテンションネットワーク(HiFANet)は、パッチ、バッグ・オブ・フレーム、ポイント間セマンティックキューを逐次集約するように設計されている。
実験の結果,提案フレームワークは既存の3Dポイント・クラウド・ベースの手法よりも優れていた。
- 参考スコア(独自算出の注目度): 17.58032517457836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel framework to learn 3D point cloud semantics from 2D
multi-view image observations containing pose error. On the one hand, directly
learning from the massive, unstructured and unordered 3D point cloud is
computationally and algorithmically more difficult than learning from
compactly-organized and context-rich 2D RGB images. On the other hand, both
LiDAR point cloud and RGB images are captured in standard automated-driving
datasets. This motivates us to conduct a "task transfer" paradigm so that 3D
semantic segmentation benefits from aggregating 2D semantic cues, albeit pose
noises are contained in 2D image observations. Among all difficulties, pose
noise and erroneous prediction from 2D semantic segmentation approaches are the
main challenges for the task transfer. To alleviate the influence of those
factor, we perceive each 3D point using multi-view images and for each single
image a patch observation is associated. Moreover, the semantic labels of a
block of neighboring 3D points are predicted simultaneously, enabling us to
exploit the point structure prior to further improve the performance. A
hierarchical full attention network~(HiFANet) is designed to sequentially
aggregates patch, bag-of-frames and inter-point semantic cues, with
hierarchical attention mechanism tailored for different level of semantic cues.
Also, each preceding attention block largely reduces the feature size before
feeding to the next attention block, making our framework slim. Experiment
results on Semantic-KITTI show that the proposed framework outperforms existing
3D point cloud based methods significantly, it requires much less training data
and exhibits tolerance to pose noise. The code is available at
https://github.com/yuhanghe01/HiFANet.
- Abstract(参考訳): ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。
一方で、巨大で構造化されていない3dポイントクラウドからの直接学習は、コンパクトでコンテキストに富んだ2d rgbイメージからの学習よりも計算的に、アルゴリズム的に困難である。
一方、LiDARポイントクラウドとRGBイメージはどちらも、標準的な自動化データセットでキャプチャされる。
これにより、3次元のセマンティックセグメンテーションが2次元のセマンティックキューの集約による恩恵を享受できる「タスク転送」パラダイムが実現されるが、ポーズノイズは2次元の画像観察に含まれる。
難易度の中では,2次元セマンティックセグメンテーションによるノイズと誤予測がタスク転送の主な課題である。
これらの要因の影響を緩和するために、マルチビュー画像を用いて各3dポイントを知覚し、パッチ観察を関連付ける。
さらに、隣接する3Dポイントのブロックのセマンティックラベルを同時に予測し、さらに性能を向上させるためにポイント構造を利用することができる。
階層型フルアテンションネットワーク(hifanet)は、パッチ、バッグオブフレーム、ポイント間セマンティクスキューを順次集約し、異なるレベルのセマンティクスキュー用に階層的アテンション機構を備えるように設計されている。
また、先行するアテンションブロックは、次のアテンションブロックにフィードする前に、機能サイズを大幅に削減します。
Semantic-KITTIの実験結果によると、提案フレームワークは既存の3Dポイントクラウドベースの手法よりも優れており、トレーニングデータが少なく、ノイズを訴える耐性を示す。
コードはhttps://github.com/yuhanghe01/hifanetで入手できる。
関連論文リスト
- Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。