Fugu-MT 論文翻訳(概要): Robust 3D-aware Object Classification via Discriminative Render-and-Compare

論文の概要: Robust 3D-aware Object Classification via Discriminative Render-and-Compare

arxiv url: http://arxiv.org/abs/2305.14668v2
Date: Mon, 5 Jun 2023 17:39:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 01:01:06.900389
Title: Robust 3D-aware Object Classification via Discriminative Render-and-Compare
Title（参考訳）: 識別的Render-and-Compareによるロバスト3次元物体分類
Authors: Artur Jesslen, Guofeng Zhang, Angtian Wang, Alan Yuille, Adam Kortylewski
Abstract要約: 本稿では,最近の研究を基盤として,単一タスクモデルに比較可能な3次元認識型分類アーキテクチャを提案する。提案手法とフィードフォワードニューラルネットワークを組み合わせることで,レンダリング・アンド・コンパレートアプローチを大規模カテゴリに拡張する方法について述べる。
参考スコア（独自算出の注目度）: 18.355998449169576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In real-world applications, it is essential to jointly estimate the 3D object pose and class label of objects, i.e., to perform 3D-aware classification.While current approaches for either image classification or pose estimation can be extended to 3D-aware classification, we observe that they are inherently limited: 1) Their performance is much lower compared to the respective single-task models, and 2) they are not robust in out-of-distribution (OOD) scenarios. Our main contribution is a novel architecture for 3D-aware classification, which builds upon a recent work and performs comparably to single-task models while being highly robust. In our method, an object category is represented as a 3D cuboid mesh composed of feature vectors at each mesh vertex. Using differentiable rendering, we estimate the 3D object pose by minimizing the reconstruction error between the mesh and the feature representation of the target image. Object classification is then performed by comparing the reconstruction losses across object categories. Notably, the neural texture of the mesh is trained in a discriminative manner to enhance the classification performance while also avoiding local optima in the reconstruction loss. Furthermore, we show how our method and feed-forward neural networks can be combined to scale the render-and-compare approach to larger numbers of categories. Our experiments on PASCAL3D+, occluded-PASCAL3D+, and OOD-CV show that our method outperforms all baselines at 3D-aware classification by a wide margin in terms of performance and robustness.
Abstract（参考訳）: 実世界のアプリケーションでは、3dオブジェクトのポーズとクラスラベル、すなわち3dアウェア分類を行うのが不可欠であるが、現在の画像分類やポーズ推定のアプローチは3dアウェア分類に拡張できるが、それらは本質的に限定されている。 1)それぞれのシングルタスクモデルに比べて性能がはるかに低い。 2) アウト・オブ・ディストリビューション(OOD)のシナリオでは堅牢ではない。私たちの主な貢献は、3D対応分類のための新しいアーキテクチャであり、これは最近の研究に基づいており、非常に堅牢でありながらシングルタスクモデルと互換性のある性能を実現しています。本手法では,オブジェクトカテゴリを,各メッシュ頂点の特徴ベクトルからなる3次元立方体メッシュとして表現する。本研究では,メッシュ間の再構成誤差と対象画像の特徴表現を最小化することにより,3次元オブジェクトのポーズを推定する。オブジェクト分類は、オブジェクトカテゴリ間の再構成損失を比較することによって行われる。特に、メッシュの神経テクスチャを識別的に訓練して分類性能を高めるとともに、復元損失の局所的最適性を回避する。さらに,本手法とフィードフォワードニューラルネットワークを組み合わせることで,より多数のカテゴリにレンダリング・アンド・コンプリートアプローチをスケールできることを示す。 PASCAL3D+,occluded-PASCAL3D+,およびOOD-CVを用いた実験により,本手法は3D-Aware分類において,性能とロバスト性の観点から広いマージンで,すべてのベースラインを上回ることを示した。

関連論文リスト

Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文参考訳（メタデータ） (2025-12-12T18:59:51Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。 Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文参考訳（メタデータ） (2025-04-30T15:42:23Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Escaping Plato's Cave: Robust Conceptual Reasoning through Interpretable 3D Neural Object Volumes [65.63534641857476]
画像分類における解釈可能性とロバスト性を統一する新しい方向であるCAVE(Concept Aware Volumes for Explanations)を紹介する。本研究では,既存の3次元認識型分類器をボリューム表現から抽出した概念で拡張することで,本質的に解釈可能かつ堅牢な分類器を設計する。解釈可能性のための定量的メトリクスの配列において、説明可能なAI文献全体にわたる異なる概念ベースのアプローチと比較し、CAVEが画像間で一貫して使用されるよく構築された概念を発見し、優れたロバスト性を実現していることを示す。
論文参考訳（メタデータ） (2025-03-17T17:55:15Z)
Chirpy3D: Creative Fine-grained 3D Object Fabrication via Part Sampling [128.23917788822948]
Chirpy3Dは、ゼロショット設定で微細な3Dオブジェクトを生成するための新しいアプローチである。モデルは、可塑性な3D構造を推測し、きめ細かい細部を捉え、新しい物体に一般化する必要がある。我々の実験では、Cirpy3Dは、高品質できめ細かな細部を持つ創造的な3Dオブジェクトを生成する既存の手法を超越していることが示されている。
論文参考訳（メタデータ） (2025-01-07T21:14:11Z)
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-27T17:59:51Z)
OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-19T03:09:24Z)
NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文参考訳（メタデータ） (2023-05-25T17:59:35Z)
Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文参考訳（メタデータ） (2022-08-04T17:59:56Z)
Category-Agnostic 6D Pose Estimation with Conditional Neural Processes [19.387280883044482]
未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。本アルゴリズムは,オブジェクトの表現をカテゴリに依存しない方法で学習し,オブジェクトカテゴリをまたいだ強力な一般化機能を実現する。
論文参考訳（メタデータ） (2022-06-14T20:46:09Z)
Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文参考訳（メタデータ） (2021-10-27T06:53:53Z)
DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。 3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文参考訳（メタデータ） (2021-08-31T18:33:55Z)
HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文参考訳（メタデータ） (2021-04-02T06:34:49Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Canonical 3D Deformer Maps: Unifying parametric and non-parametric methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文参考訳（メタデータ） (2020-08-28T15:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。