論文の概要: Variable-Viewpoint Representations for 3D Object Recognition
- arxiv url: http://arxiv.org/abs/2002.03131v1
- Date: Sat, 8 Feb 2020 10:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:56:32.569400
- Title: Variable-Viewpoint Representations for 3D Object Recognition
- Title(参考訳): 3次元物体認識のための可変視点表現
- Authors: Tengyu Ma, Joel Michelson, James Ainooson, Deepayan Sanyal, Xiaohan
Wang, Maithilee Kunda
- Abstract要約: 共通表現連続体の2つの極端に2種類の入力表現が存在することを示す。
この2つの極点の間の点にある興味深い中間表現を同定する。
系統的な経験実験を通して、入力情報の関数としてこの連続体に沿って精度がどのように変化するかを示す。
- 参考スコア(独自算出の注目度): 27.913222855275997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For the problem of 3D object recognition, researchers using deep learning
methods have developed several very different input representations, including
"multi-view" snapshots taken from discrete viewpoints around an object, as well
as "spherical" representations consisting of a dense map of essentially
ray-traced samples of the object from all directions. These representations
offer trade-offs in terms of what object information is captured and to what
degree of detail it is captured, but it is not clear how to measure these
information trade-offs since the two types of representations are so different.
We demonstrate that both types of representations in fact exist at two extremes
of a common representational continuum, essentially choosing to prioritize
either the number of views of an object or the pixels (i.e., field of view)
allotted per view. We identify interesting intermediate representations that
lie at points in between these two extremes, and we show, through systematic
empirical experiments, how accuracy varies along this continuum as a function
of input information as well as the particular deep learning architecture that
is used.
- Abstract(参考訳): 3次元物体認識の問題に対して、深層学習法を用いた研究者は、物体の周囲の離散的な視点から撮影した「マルチビュー」スナップショットや、物体のあらゆる方向から本質的に光沢のあるサンプルの密集した地図からなる「球面」表現など、いくつかの全く異なる入力表現を開発した。
これらの表現は、どのようなオブジェクト情報がキャプチャされるか、どんな詳細がキャプチャされるかという観点でトレードオフを提供するが、これらの2つのタイプの表現がとても異なるため、これらの情報のトレードオフを計測する方法は明確ではない。
両表現は、実際には共通の表現連続体の2つの極端に存在し、本質的には、ビューごとに割り当てられたオブジェクトのビュー数またはピクセル数(つまり、視野)を優先順位付けする。
この2つの極小の間にある興味深い中間表現を識別し、系統的な実験を通して、入力情報と特定のディープラーニングアーキテクチャの関数として、この連続体に沿って精度がどのように変化するかを示す。
関連論文リスト
- Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z) - Object Detection on Single Monocular Images through Canonical
Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T05:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。