論文の概要: Bidirectional Projection Network for Cross Dimension Scene Understanding
- arxiv url: http://arxiv.org/abs/2103.14326v1
- Date: Fri, 26 Mar 2021 08:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:42:52.699025
- Title: Bidirectional Projection Network for Cross Dimension Scene Understanding
- Title(参考訳): クロス次元シーン理解のための双方向投影ネットワーク
- Authors: Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong
- Abstract要約: 本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
- 参考スコア(独自算出の注目度): 69.29443390126805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D image representations are in regular grids and can be processed
efficiently, whereas 3D point clouds are unordered and scattered in 3D space.
The information inside these two visual domains is well complementary, e.g., 2D
images have fine-grained texture while 3D point clouds contain plentiful
geometry information. However, most current visual recognition systems process
them individually. In this paper, we present a \emph{bidirectional projection
network (BPNet)} for joint 2D and 3D reasoning in an end-to-end manner. It
contains 2D and 3D sub-networks with symmetric architectures, that are
connected by our proposed \emph{bidirectional projection module (BPM)}. Via the
\emph{BPM}, complementary 2D and 3D information can interact with each other in
multiple architectural levels, such that advantages in these two visual domains
can be combined for better scene recognition. Extensive quantitative and
qualitative experimental evaluations show that joint reasoning over 2D and 3D
visual domains can benefit both 2D and 3D scene understanding simultaneously.
Our \emph{BPNet} achieves top performance on the ScanNetV2 benchmark for both
2D and 3D semantic segmentation. Code is available at
\url{https://github.com/wbhu/BPNet}.
- Abstract(参考訳): 2次元画像表現は正規格子の中にあり、効率的に処理できるが、3次元点雲は無秩序で3次元空間に散在する。
これら2つの視覚領域内の情報は相補的であり、例えば2d画像はきめ細かいテクスチャを持ち、3d点雲は豊富な幾何学情報を含んでいる。
しかし、現在のほとんどの視覚認識システムはそれらを個別に処理している。
本稿では,2次元および3次元の連立推論をエンドツーエンドに行うために,emph{bidirectional projection network (BPNet)を提案する。
対称アーキテクチャを持つ2dおよび3dサブネットワークを含み,提案する二方向投影モジュール (bpm) によって接続される。
補足的な2Dと3Dの情報は複数のアーキテクチャレベルで相互に相互作用できるため、これらの2つの視覚領域の利点は、より優れたシーン認識のために組み合わせられる。
広範囲な定量的・定性的な実験評価により、2次元と3次元の視覚領域における共同推論が2次元と3次元のシーン理解の双方に有益であることが示された。
我々の \emph{BPNet} は 2D と 3D のセマンティックセマンティックセグメンテーションにおいて ScanNetV2 ベンチマークの最高性能を達成する。
コードは \url{https://github.com/wbhu/BPNet} で入手できる。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation [17.557697146752652]
2Dと3Dセマンティックセマンティックセグメンテーションは3Dシーン理解において主流になっている。
この2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
本稿では,その単純さに拘わらず,一方向の多視点2次元深部セマンティックな特徴を3次元の深部セマンティックな特徴と整合した3次元空間に投影することで,より優れた機能融合がもたらされることを論じる。
論文 参考訳(メタデータ) (2022-12-13T15:58:25Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。