論文の概要: MK-Pose: Category-Level Object Pose Estimation via Multimodal-Based Keypoint Learning
- arxiv url: http://arxiv.org/abs/2507.06662v1
- Date: Wed, 09 Jul 2025 08:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.533436
- Title: MK-Pose: Category-Level Object Pose Estimation via Multimodal-Based Keypoint Learning
- Title(参考訳): MK-Pose:マルチモーダル型キーポイント学習によるカテゴリーレベルオブジェクトポス推定
- Authors: Yifan Yang, Peili Song, Enfan Lan, Dong Liu, Jingtai Liu,
- Abstract要約: カテゴリーレベルのオブジェクトのポーズ推定は、倉庫の自動化や製造のようなアプリケーションに不可欠である。
本稿では、RGB画像、ポイントクラウド、カテゴリレベルのテキスト記述を統合したマルチモーダルベースのキーポイント学習フレームワーク(MK-Pose)を提案する。
MK-PoseはCAMERA25とREAL275データセットで評価され、HouseCat6Dデータセットでクロスデータセット機能についてさらにテストされている。
- 参考スコア(独自算出の注目度): 12.588330308030304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Category-level object pose estimation, which predicts the pose of objects within a known category without prior knowledge of individual instances, is essential in applications like warehouse automation and manufacturing. Existing methods relying on RGB images or point cloud data often struggle with object occlusion and generalization across different instances and categories. This paper proposes a multimodal-based keypoint learning framework (MK-Pose) that integrates RGB images, point clouds, and category-level textual descriptions. The model uses a self-supervised keypoint detection module enhanced with attention-based query generation, soft heatmap matching and graph-based relational modeling. Additionally, a graph-enhanced feature fusion module is designed to integrate local geometric information and global context. MK-Pose is evaluated on CAMERA25 and REAL275 dataset, and is further tested for cross-dataset capability on HouseCat6D dataset. The results demonstrate that MK-Pose outperforms existing state-of-the-art methods in both IoU and average precision without shape priors. Codes will be released at \href{https://github.com/yangyifanYYF/MK-Pose}{https://github.com/yangyifanYYF/MK-Pose}.
- Abstract(参考訳): カテゴリレベルのオブジェクトのポーズ推定は、個々のインスタンスの事前の知識なしに既知のカテゴリ内のオブジェクトのポーズを予測するもので、倉庫の自動化や製造のようなアプリケーションに必須である。
既存のRGBイメージやポイントクラウドデータに依存する手法は、さまざまなインスタンスやカテゴリにわたるオブジェクトの隠蔽や一般化に悩まされることが多い。
本稿では、RGB画像、ポイントクラウド、カテゴリレベルのテキスト記述を統合したマルチモーダルベースのキーポイント学習フレームワーク(MK-Pose)を提案する。
このモデルは、アテンションベースのクエリ生成、ソフトヒートマップマッチング、グラフベースのリレーショナルモデリングにより強化された自己教師付きキーポイント検出モジュールを使用する。
さらに、局所幾何学情報とグローバルコンテキストを統合するために、グラフ強化機能融合モジュールが設計されている。
MK-PoseはCAMERA25とREAL275データセットで評価され、HouseCat6Dデータセットでクロスデータセット機能についてさらにテストされている。
その結果、MK-Poseは、IoUと平均精度の両方において既存の最先端手法よりも優れており、形状に先行しない。
コードは \href{https://github.com/yangyifanYF/MK-Pose}{https://github.com/yangyifanYF/MK-Pose} でリリースされる。
関連論文リスト
- KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation [87.23575166061413]
KP-RED は KeyPoint 主導の Retrieval and deformation フレームワークである。
オブジェクトスキャンを入力として、最も幾何学的に類似したCADモデルを共同で検索し、変形させる。
論文 参考訳(メタデータ) (2024-03-15T08:44:56Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。