論文の概要: PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views
- arxiv url: http://arxiv.org/abs/2604.22658v2
- Date: Tue, 28 Apr 2026 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:53.961341
- Title: PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views
- Title(参考訳): PASR:ぼんやりした1つのビューから3Dの形状を検索する
- Authors: Jiaxin Shi, Guofeng Zhang, Wufei Ma, Naifu Liang, Adam Kortylewski, Alan Yuille,
- Abstract要約: 本稿では,機能レベルの解析言語問題として検索を定式化するフレームワークであるPose-Aware 3D Shape Retrieval (PASR)を提案する。
ポーズ条件付き3Dプロジェクションを2次元特徴マップに整列させることで,実世界の画像と合成メッシュのギャップを埋める。
PASRは、クリーンかつ隠蔽された3次元形状検索データセットの既存の手法を、広いマージンで大幅に上回っている。
- 参考スコア(独自算出の注目度): 41.6619757077912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-view 3D shape retrieval is a fundamental yet challenging task that is increasingly important with the growth of available 3D data. Existing approaches largely fall into two categories: those using contrastive learning to map point cloud features into existing vision-language spaces and those that learn a common embedding space for 2D images and 3D shapes. However, these feed-forward, holistic alignments are often difficult to interpret, which in turn limits their robustness and generalization to real-world applications. To address this problem, we propose Pose-Aware 3D Shape Retrieval (PASR), a framework that formulates retrieval as a feature-level analysis-by-synthesis problem by distilling knowledge from a 2D foundation model (DINOv3) into a 3D encoder. By aligning pose-conditioned 3D projections with 2D feature maps, our method bridges the gap between real-world images and synthetic meshes. During inference, PASR performs a test-time optimization via analysis-by-synthesis, jointly searching for the shape and pose that best reconstruct the patch-level feature map of the input image. This synthesis-based optimization is inherently robust to partial occlusion and sensitive to fine-grained geometric details. PASR substantially outperforms existing methods on both clean and occluded 3D shape retrieval datasets by a wide margin. Additionally, PASR demonstrates strong multi-task capabilities, achieving robust shape retrieval, competitive pose estimation, and accurate category classification within a single framework.
- Abstract(参考訳): シングルビュー3D形状検索は、利用可能な3Dデータの成長においてますます重要になる、基本的な課題でありながら難しい課題である。
既存のアプローチは主に2つのカテゴリに分類される: 対照的な学習を使って、ポイントクラウドの機能を既存のビジョン言語空間にマッピングする、そして2D画像と3D形状の共通埋め込み空間を学ぶ。
しかし、これらのフィードフォワードの全体論的アライメントはしばしば解釈が困難であり、それによってそれらの堅牢性と一般化は現実世界のアプリケーションに制限される。
本稿では,2次元基礎モデル(DINOv3)の知識を3次元エンコーダに蒸留することにより,特徴レベルの解析・合成問題として検索を定式化するフレームワークであるPose-Aware 3D Shape Retrieval (PASR)を提案する。
ポーズ条件付き3Dプロジェクションを2次元特徴マップに整列させることで,実世界の画像と合成メッシュのギャップを埋める。
推論中、PASRは分析バイシンセシスによるテスト時間最適化を行い、入力画像のパッチレベルの特徴マップを最もよく再構成する形状とポーズを共同で探索する。
この合成に基づく最適化は、本質的に部分閉塞に対して堅牢であり、きめ細かい幾何学的詳細に敏感である。
PASRは、クリーンかつ隠蔽された3次元形状検索データセットの既存の手法を、広いマージンで大幅に上回っている。
さらに、PASRは強力なマルチタスク機能、堅牢な形状検索、競合ポーズ推定、単一のフレームワーク内での正確なカテゴリ分類を実現している。
関連論文リスト
- Mesh-Gait: A Unified Framework for Gait Recognition Through Multi-Modal Representation Learning from 2D Silhouettes [36.964703204465664]
我々は、新しいエンドツーエンドの歩行認識フレームワークであるMesh-Gaitを紹介する。
2Dシルエットから3D表現を直接再構成する。
Mesh-Gaitは最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-10-12T01:49:05Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image [18.595767346300995]
SDFitと呼ばれる新しいレンダリング・アンド・コンパレート最適化フレームワークを開発した。
学習したカテゴリ固有かつ変形可能な符号距離関数(mSDF)モデルを使用し、これを3Dポーズと形状の両方を反復的に精製することによって画像に適合させる。
画像にマッチする最初の3D形状を検索し、基礎モデルを利用して3D形状データベースを効率的に検索する。
論文 参考訳(メタデータ) (2024-09-24T15:22:04Z) - Robust 3D Tracking with Quality-Aware Shape Completion [67.9748164949519]
そこで本研究では,高密度および完全点の雲からなる合成対象表現について,ロバストな3次元追跡のための形状完備化により正確に表現する。
具体的には, 形状が整ったボキセル化3次元追跡フレームワークを設計し, ノイズのある歴史的予測の悪影響を軽減するために, 品質に配慮した形状完備化機構を提案する。
論文 参考訳(メタデータ) (2023-12-17T04:50:24Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。