論文の概要: MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2604.20650v1
- Date: Wed, 22 Apr 2026 15:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.184032
- Title: MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation
- Title(参考訳): MAPRPose:マルチオブジェクト6次元ポース推定のためのマスク対応の提案とアモーダルリファインメント
- Authors: Yang Luo, Yan Gong, Yongsheng Gao, Xiaoying Sun, Jie Zhao,
- Abstract要約: MAPRPoseは2段階のフレームワークであり、プロポーズの提案や頑健な改善のためのアモーダル駆動型Regional-of-Interest(ROI)予測にマスク対応対応の対応を利用している。
BOPベンチマークで評価すると、MAPRPoseは最先端の平均リコール(AR)を76.5%達成し、FoundationPoseよりも3.1%向上し、マルチオブジェクト推論では43倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 21.294005937994882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 6D object pose estimation in cluttered scenes remains challenging due to severe occlusion and sensor noise. We propose MAPRPose, a two-stage framework that leverages mask-aware correspondences for pose proposal and amodal-driven Region-of-Interest (ROI) prediction for robust refinement. In the Mask-Aware Pose Proposal (MAPP) stage, we lift 2D correspondences into 3D space to establish reliable keypoint matches and generate geometrically consistent pose hypotheses based on correspondence-level scoring, from which the top-$K$ candidates are selected. In the refinement stage, we introduce a tensorized render-and-compare pipeline integrated with an Amodal Mask Prediction and ROI Re-Alignment (AMPR) module. By reconstructing complete object geometry and dynamically adjusting the ROI, AMPR mitigates localization errors and spatial misalignment under heavy occlusion. Furthermore, our GPU-accelerated RGB-XYZ reprojection enables simultaneous refinement of all $N \times B$ pose hypotheses in a single forward pass. Evaluated on the BOP benchmark, MAPRPose achieves a state-of-the-art Average Recall (AR) of 76.5%, outperforming FoundationPose by 3.1% AR while delivering a 43x speedup in multi-object inference.
- Abstract(参考訳): 乱雑なシーンにおける6次元物体のポーズ推定は、重度の閉塞とセンサノイズのため難しいままである。
提案する2段階のフレームワークであるMAPRPoseを提案し,ロバスト改良のためのポーズ提案とアモーダル駆動型Regional-of-Interest(ROI)予測を行う。
The Mask-Aware Pose Proposal (MAPP) stage, we lift 2D correspondences into 3D space to establish reliable keypoint match and generate geometryally consistent pose hypotheses based on correspond-level score, which the top-K$ candidate are selected。
改良段階では、Amodal Mask Prediction and ROI Re-Alignment (AMPR)モジュールと統合されたテンソル化レンダリング・アンド・コンパレートパイプラインを導入する。
完全な物体形状を再構成し、ROIを動的に調整することにより、AMPRは重閉塞下での局所化誤差と空間的不整合を緩和する。
さらに,GPUによるRGB-XYZ再プロジェクションにより,すべての$N \times B$の同時修正が可能となった。
BOPベンチマークで評価すると、MAPRPoseは最先端の平均リコール(AR)を76.5%達成し、FoundationPoseを3.1%ARで上回り、マルチオブジェクト推論では43倍のスピードアップを実現している。
関連論文リスト
- Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation [5.466547563815996]
本稿では,RGB-D入力からのカテゴリレベルの9-DoFポーズ推定の課題をCADモデルに頼らずに解決する。
深度に基づくグラフ畳み込み表現とセマンティック特徴を融合したハイブリッドアーキテクチャであるDeMo-Poseを提案する。
提案手法は,オブジェクトカテゴリ間のリアルタイム推論を実現し,最先端の手法を大幅に改善する。
論文 参考訳(メタデータ) (2026-03-29T05:58:04Z) - TopoMaskV3: 3D Mask Head with Dense Offset and Height Predictions for Road Topology Understanding [6.043109546012043]
TopoMaskV3は、2つの新しい密度予測ヘッドを介して、頑丈でスタンドアロンな3D予測器である。
我々は,道路トポロジ評価において,地理的データ漏洩に最初に対処した人物である。
TopoMaskV3は、地理的に結合しないベンチマークで最先端の28.5OLSを達成する。
論文 参考訳(メタデータ) (2026-03-02T07:33:46Z) - Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation [24.066642344610873]
既存のエンドツーエンドのロボット操作アプローチでは、限られたデータと弱い解釈性のために、見えないオブジェクトやタスクへの一般化が欠如していることが多い。
ゼロショットロボット操作のための3次元ガウス型マルチモーダル検索生成フレームワークRobMRAGを提案する。
提案手法は, 最高性能のゼロショットベースラインと比較して7.76%, 最先端の教師付きベースラインに比べて6.54%向上する。
論文 参考訳(メタデータ) (2026-02-28T06:48:05Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Category-Level 6D Object Pose Estimation via Cascaded Relation and
Recurrent Reconstruction Networks [22.627704070200863]
カテゴリーレベルの6Dポーズ推定は、ロボット操作や拡張現実といった多くのシナリオに不可欠である。
カテゴリレベルの6次元ポーズ推定をカスケード関係と再帰的再構成ネットワークを用いて高精度に行う。
我々の手法は最新の最先端のSPDを4.9%、CAMERA25データセットで17.7%で上回る。
論文 参考訳(メタデータ) (2021-08-19T15:46:52Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - A Pose Proposal and Refinement Network for Better Object Pose Estimation [0.5735035463793008]
本稿では,RGB入力で動作する,エンドツーエンドの6Dオブジェクトポーズ推定手法を提案する。
提案するパイプラインは、最先端のRGBベースの手法と競合するランタイム性能より優れています。
論文 参考訳(メタデータ) (2020-04-11T23:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。