論文の概要: Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge
Engine
- arxiv url: http://arxiv.org/abs/2111.10817v1
- Date: Sun, 21 Nov 2021 13:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:46:49.217777
- Title: Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge
Engine
- Title(参考訳): 3次元キーポイント知識エンジンを用いた画素レベルの2次元画像解析
- Authors: Yang You, Chengkun Li, Yujing Lou, Zhoujun Cheng, Liangwei Li,
Lizhuang Ma, Weiming Wang, Cewu Lu
- Abstract要約: 本稿では,3次元領域における画像に対応するセマンティクスを予測し,それを2次元画像に投影してピクセルレベルの理解を実現する手法を提案する。
16のカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含むKeypointNetと呼ばれる大規模キーポイント知識エンジンを構築した。
- 参考スコア(独自算出の注目度): 56.09471066808409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-level 2D object semantic understanding is an important topic in
computer vision and could help machine deeply understand objects (e.g.
functionality and affordance) in our daily life. However, most previous methods
directly train on correspondences in 2D images, which is end-to-end but loses
plenty of information in 3D spaces. In this paper, we propose a new method on
predicting image corresponding semantics in 3D domain and then projecting them
back onto 2D images to achieve pixel-level understanding. In order to obtain
reliable 3D semantic labels that are absent in current image datasets, we build
a large scale keypoint knowledge engine called KeypointNet, which contains
103,450 keypoints and 8,234 3D models from 16 object categories. Our method
leverages the advantages in 3D vision and can explicitly reason about objects
self-occlusion and visibility. We show that our method gives comparative and
even superior results on standard semantic benchmarks.
- Abstract(参考訳): ピクセルレベルの2dオブジェクトの意味理解は、コンピュータビジョンの重要なトピックであり、マシンが日々の生活の中で、オブジェクトを深く理解するのに役立つ。
しかし、以前のほとんどの方法は、エンドツーエンドだが3d空間で多くの情報を失う2dイメージの対応を直接トレーニングする。
本稿では,3次元領域で画像に対応する意味論を予測し,それを2次元画像に投影してピクセルレベルの理解を実現する新しい手法を提案する。
現在の画像データセットにない信頼できる3d意味ラベルを得るために,16のオブジェクトカテゴリから103,450のキーポイントと8,234の3dモデルを含むkeypointnetと呼ばれる大規模キーポイントナレッジエンジンを構築した。
本手法は3次元視覚の利点を活かし,オブジェクトの自己完結性と可視性を明確に判断することができる。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与える。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。