論文の概要: Robust 3D-aware Object Classification via Discriminative
Render-and-Compare
- arxiv url: http://arxiv.org/abs/2305.14668v2
- Date: Mon, 5 Jun 2023 17:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 01:01:06.900389
- Title: Robust 3D-aware Object Classification via Discriminative
Render-and-Compare
- Title(参考訳): 識別的Render-and-Compareによるロバスト3次元物体分類
- Authors: Artur Jesslen, Guofeng Zhang, Angtian Wang, Alan Yuille, Adam
Kortylewski
- Abstract要約: 本稿では,最近の研究を基盤として,単一タスクモデルに比較可能な3次元認識型分類アーキテクチャを提案する。
提案手法とフィードフォワードニューラルネットワークを組み合わせることで,レンダリング・アンド・コンパレートアプローチを大規模カテゴリに拡張する方法について述べる。
- 参考スコア(独自算出の注目度): 18.355998449169576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world applications, it is essential to jointly estimate the 3D object
pose and class label of objects, i.e., to perform 3D-aware classification.While
current approaches for either image classification or pose estimation can be
extended to 3D-aware classification, we observe that they are inherently
limited: 1) Their performance is much lower compared to the respective
single-task models, and 2) they are not robust in out-of-distribution (OOD)
scenarios. Our main contribution is a novel architecture for 3D-aware
classification, which builds upon a recent work and performs comparably to
single-task models while being highly robust. In our method, an object category
is represented as a 3D cuboid mesh composed of feature vectors at each mesh
vertex. Using differentiable rendering, we estimate the 3D object pose by
minimizing the reconstruction error between the mesh and the feature
representation of the target image. Object classification is then performed by
comparing the reconstruction losses across object categories. Notably, the
neural texture of the mesh is trained in a discriminative manner to enhance the
classification performance while also avoiding local optima in the
reconstruction loss. Furthermore, we show how our method and feed-forward
neural networks can be combined to scale the render-and-compare approach to
larger numbers of categories. Our experiments on PASCAL3D+, occluded-PASCAL3D+,
and OOD-CV show that our method outperforms all baselines at 3D-aware
classification by a wide margin in terms of performance and robustness.
- Abstract(参考訳): 実世界のアプリケーションでは、3dオブジェクトのポーズとクラスラベル、すなわち3dアウェア分類を行うのが不可欠であるが、現在の画像分類やポーズ推定のアプローチは3dアウェア分類に拡張できるが、それらは本質的に限定されている。
1)それぞれのシングルタスクモデルに比べて性能がはるかに低い。
2) アウト・オブ・ディストリビューション(OOD)のシナリオでは堅牢ではない。
私たちの主な貢献は、3D対応分類のための新しいアーキテクチャであり、これは最近の研究に基づいており、非常に堅牢でありながらシングルタスクモデルと互換性のある性能を実現しています。
本手法では,オブジェクトカテゴリを,各メッシュ頂点の特徴ベクトルからなる3次元立方体メッシュとして表現する。
本研究では,メッシュ間の再構成誤差と対象画像の特徴表現を最小化することにより,3次元オブジェクトのポーズを推定する。
オブジェクト分類は、オブジェクトカテゴリ間の再構成損失を比較することによって行われる。
特に、メッシュの神経テクスチャを識別的に訓練して分類性能を高めるとともに、復元損失の局所的最適性を回避する。
さらに,本手法とフィードフォワードニューラルネットワークを組み合わせることで,より多数のカテゴリにレンダリング・アンド・コンプリートアプローチをスケールできることを示す。
PASCAL3D+,occluded-PASCAL3D+,およびOOD-CVを用いた実験により,本手法は3D-Aware分類において,性能とロバスト性の観点から広いマージンで,すべてのベースラインを上回ることを示した。
関連論文リスト
- GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。
そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。
分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文 参考訳(メタデータ) (2023-05-25T17:59:35Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Category-Agnostic 6D Pose Estimation with Conditional Neural Processes [19.387280883044482]
未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。
本アルゴリズムは,オブジェクトの表現をカテゴリに依存しない方法で学習し,オブジェクトカテゴリをまたいだ強力な一般化機能を実現する。
論文 参考訳(メタデータ) (2022-06-14T20:46:09Z) - Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文 参考訳(メタデータ) (2021-10-27T06:53:53Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。