論文の概要: Semantic Correspondence via 2D-3D-2D Cycle
- arxiv url: http://arxiv.org/abs/2004.09061v2
- Date: Tue, 13 Apr 2021 06:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:48:01.181058
- Title: Semantic Correspondence via 2D-3D-2D Cycle
- Title(参考訳): 2D-3D-2Dサイクルによる意味的対応
- Authors: Yang You, Chengkun Li, Yujing Lou, Zhoujun Cheng, Lizhuang Ma, Cewu
Lu, Weiming Wang
- Abstract要約: 本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
- 参考スコア(独自算出の注目度): 58.023058561837686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual semantic correspondence is an important topic in computer vision and
could help machine understand objects in our daily life. However, most previous
methods directly train on correspondences in 2D images, which is end-to-end but
loses plenty of information in 3D spaces. In this paper, we propose a new
method on predicting semantic correspondences by leveraging it to 3D domain and
then project corresponding 3D models back to 2D domain, with their semantic
labels. Our method leverages the advantages in 3D vision and can explicitly
reason about objects self-occlusion and visibility. We show that our method
gives comparative and even superior results on standard semantic benchmarks. We
also conduct thorough and detailed experiments to analyze our network
components. The code and experiments are publicly available at
https://github.com/qq456cvb/SemanticTransfer.
- Abstract(参考訳): 視覚意味対応はコンピュータビジョンにおいて重要なトピックであり、日常の物体を理解するのに役立つ。
しかし、以前のほとんどの方法は、エンドツーエンドだが3d空間で多くの情報を失う2dイメージの対応を直接トレーニングする。
本稿では,3d ドメインにそれを活用し,それに対応する 3d モデルを 2d ドメインに投影し,その意味ラベルを用いて意味対応を予測する新しい手法を提案する。
本手法は3次元視覚の利点を活かし,オブジェクトの自己完結性と可視性を明確に判断することができる。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与える。
ネットワークコンポーネントを分析するための徹底した詳細な実験も行っています。
コードと実験はhttps://github.com/qq456cvb/SemanticTransferで公開されている。
関連論文リスト
- SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge
Engine [56.09471066808409]
本稿では,3次元領域における画像に対応するセマンティクスを予測し,それを2次元画像に投影してピクセルレベルの理解を実現する手法を提案する。
16のカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含むKeypointNetと呼ばれる大規模キーポイント知識エンジンを構築した。
論文 参考訳(メタデータ) (2021-11-21T13:25:20Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。