Fugu-MT 論文翻訳(概要): Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes

論文の概要: Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes

arxiv url: http://arxiv.org/abs/2508.02157v1
Date: Mon, 04 Aug 2025 07:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:22.237445
Title: Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes
Title（参考訳）: 3次元プロトタイプを用いたRGB画像からの統一カテゴリーレベル物体検出と詩推定
Authors: Tom Fischer, Xiaojie Zhang, Eddy Ilg,
Abstract要約: RGB画像の1つのフレームワークに検出とポーズ推定を統合する統一モデルを導入する。提案手法は,REAL275におけるRGBカテゴリレベルのポーズ推定における最先端結果を実現する。
参考スコア（独自算出の注目度）: 5.224479258519442
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognizing objects in images is a fundamental problem in computer vision. Although detecting objects in 2D images is common, many applications require determining their pose in 3D space. Traditional category-level methods rely on RGB-D inputs, which may not always be available, or employ two-stage approaches that use separate models and representations for detection and pose estimation. For the first time, we introduce a unified model that integrates detection and pose estimation into a single framework for RGB images by leveraging neural mesh models with learned features and multi-model RANSAC. Our approach achieves state-of-the-art results for RGB category-level pose estimation on REAL275, improving on the current state-of-the-art by 22.9% averaged across all scale-agnostic metrics. Finally, we demonstrate that our unified method exhibits greater robustness compared to single-stage baselines. Our code and models are available at https://github.com/Fischer-Tom/unified-detection-and-pose-estimation.
Abstract（参考訳）: 画像中の物体を認識することは、コンピュータビジョンの根本的な問題である。 2次元画像中の物体を検出することは一般的であるが、多くのアプリケーションは3次元空間におけるポーズを決定する必要がある。従来のカテゴリレベルの手法はRGB-D入力に依存しており、常に利用できるとは限らない。ニューラルネットワークモデルと学習機能,マルチモデルRANSACを活用することにより,RGB画像の検出とポーズ推定を単一のフレームワークに統合する統一モデルを導入する。提案手法は,REAL275におけるRGBカテゴリレベルのポーズ推定における最先端結果を実現し,すべての尺度で平均22.9%改善する。最後に,本手法が単段ベースラインよりも頑健であることを示す。私たちのコードとモデルはhttps://github.com/Fischer-Tom/unified-detection-and-pose-estimationで利用可能です。

関連論文リスト

Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T17:49:15Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。 MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文参考訳（メタデータ） (2024-03-03T14:01:03Z)
FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文参考訳（メタデータ） (2023-11-30T18:52:29Z)
RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文参考訳（メタデータ） (2023-09-19T02:20:26Z)
MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-08-17T08:29:54Z)
Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文参考訳（メタデータ） (2021-12-30T14:36:47Z)
Single-stage Keypoint-based Category-level Object Pose Estimation from an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文参考訳（メタデータ） (2021-09-13T17:55:00Z)
RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。 RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。 RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文参考訳（メタデータ） (2021-06-22T12:53:56Z)
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文参考訳（メタデータ） (2021-03-14T11:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。