論文の概要: 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations
- arxiv url: http://arxiv.org/abs/2010.16279v1
- Date: Fri, 30 Oct 2020 13:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:04:16.634335
- Title: 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations
- Title(参考訳): ニューラル3次元シーン表現の対応と定量化による3次元物体認識
- Authors: Mihir Prabhudesai, Shamit Lal, Hsiao-Yu Fish Tung, Adam W. Harley,
Shubhankar Potdar, Katerina Fragkiadaki
- Abstract要約: 本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
- 参考スコア(独自算出の注目度): 29.61554189447989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a system that learns to detect objects and infer their 3D poses in
RGB-D images. Many existing systems can identify objects and infer 3D poses,
but they heavily rely on human labels and 3D annotations. The challenge here is
to achieve this without relying on strong supervision signals. To address this
challenge, we propose a model that maps RGB-D images to a set of 3D visual
feature maps in a differentiable fully-convolutional manner, supervised by
predicting views. The 3D feature maps correspond to a featurization of the 3D
world scene depicted in the images. The object 3D feature representations are
invariant to camera viewpoint changes or zooms, which means feature matching
can identify similar objects under different camera viewpoints. We can compare
the 3D feature maps of two objects by searching alignment across scales and 3D
rotations, and, as a result of the operation, we can estimate pose and scale
changes without the need for 3D pose annotations. We cluster object feature
maps into a set of 3D prototypes that represent familiar objects in canonical
scales and orientations. We then parse images by inferring the prototype
identity and 3D pose for each detected object. We compare our method to
numerous baselines that do not learn 3D feature visual representations or do
not attempt to correspond features across scenes, and outperform them by a
large margin in the tasks of object retrieval and object pose estimation.
Thanks to the 3D nature of the object-centric feature maps, the visual
similarity cues are invariant to 3D pose changes or small scale changes, which
gives our method an advantage over 2D and 1D methods.
- Abstract(参考訳): オブジェクトを検出し,RGB-D画像中の3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
ここでの課題は、強い監督信号に頼ることなくこれを達成することです。
そこで本研究では,rgb-d画像から3次元視覚特徴マップのセットを微分可能な完全畳み込み方式でマッピングするモデルを提案する。
3D特徴マップは、画像に描かれた3Dワールドシーンの偉業化に対応する。
オブジェクト3Dの特徴表現は、カメラ視点の変化やズームに不変であり、特徴マッチングは異なるカメラ視点下で類似したオブジェクトを識別することができる。
2つのオブジェクトの3d特徴マップを比較して、スケール間のアライメントと3d回転を探索し、操作の結果、3dポーズアノテーションを必要とせずにポーズとスケールの変化を推定できる。
オブジェクトの特徴マップを、標準的なスケールと向きで馴染みのあるオブジェクトを表す3Dプロトタイプのセットにクラスタ化する。
次に,検出対象毎にプロトタイプのアイデンティティと3Dポーズを推定して画像解析を行う。
提案手法を3次元特徴表現を学習しない,あるいはシーン間の特徴対応を行なわない,多数のベースラインと比較し,オブジェクト検索とオブジェクトポーズ推定のタスクにおいて,大きなマージンでそれらを上回ります。
オブジェクト中心の特徴マップの3D特性により、視覚的類似性は3Dポーズの変化や小さなスケールの変化に不変であり、2D法や1D法よりも有利である。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z) - 3D Object Detection and Pose Estimation of Unseen Objects in Color
Images with Local Surface Embeddings [35.769234123059086]
本研究では, 画像中のオブジェクトの3次元ポーズを, テクスチャのないCADモデルでのみ検出し, 推定する手法を提案する。
我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とを一致させるために、局所的な3D幾何の埋め込みに依存している。
我々は,Mask-RCNNをクラスに依存しない方法で,再学習せずに新しい物体を検出できることを示す。
論文 参考訳(メタデータ) (2020-10-08T15:57:06Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。