Fugu-MT 論文翻訳(概要): COPE: End-to-end trainable Constant Runtime Object Pose Estimation

論文の概要: COPE: End-to-end trainable Constant Runtime Object Pose Estimation

arxiv url: http://arxiv.org/abs/2208.08807v2
Date: Mon, 22 Aug 2022 12:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 10:34:25.738963
Title: COPE: End-to-end trainable Constant Runtime Object Pose Estimation
Title（参考訳）: COPE: エンドツーエンドのトレーニング可能なConstant Runtime Object Pose Estimation
Authors: Stefan Thalhammer, Timothy Patten, Markus Vincze
Abstract要約: 最先端オブジェクトのポーズ推定は、複数モデルの定式化を使用して、テストイメージ内の複数のインスタンスを処理する。本稿では,複数のオブジェクトの中間的幾何学的表現を学習して,テスト画像中の全インスタンスの6Dポーズを直接回帰する手法を提案する。
参考スコア（独自算出の注目度）: 27.812786116392584
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art object pose estimation handles multiple instances in a test image by using multi-model formulations: detection as a first stage and then separately trained networks per object for 2D-3D geometric correspondence prediction as a second stage. Poses are subsequently estimated using the Perspective-n-Points algorithm at runtime. Unfortunately, multi-model formulations are slow and do not scale well with the number of object instances involved. Recent approaches show that direct 6D object pose estimation is feasible when derived from the aforementioned geometric correspondences. We present an approach that learns an intermediate geometric representation of multiple objects to directly regress 6D poses of all instances in a test image. The inherent end-to-end trainability overcomes the requirement of separately processing individual object instances. By calculating the mutual Intersection-over-Unions, pose hypotheses are clustered into distinct instances, which achieves negligible runtime overhead with respect to the number of object instances. Results on multiple challenging standard datasets show that the pose estimation performance is superior to single-model state-of-the-art approaches despite being more than ~35 times faster. We additionally provide an analysis showing real-time applicability (>24 fps) for images where more than 90 object instances are present. Further results show the advantage of supervising geometric-correspondence-based object pose estimation with the 6D pose.
Abstract（参考訳）: State-of-the-art object pose Estimationは、複数モデルの定式化を用いて、テスト画像内の複数のインスタンスを処理する。その後、パースペクティブ-n-Pointsアルゴリズムを実行時に使用する。残念ながら、マルチモデルの定式化は遅く、関連するオブジェクトインスタンスの数でうまくスケールしない。近年のアプローチでは、上記の幾何学的対応から導いた場合、直接6次元オブジェクトのポーズ推定が可能であることが示されている。本稿では,複数のオブジェクトの中間幾何学的表現を学習して,テスト画像中の全インスタンスの6Dポーズを直接回帰する手法を提案する。固有のエンドツーエンドのトレーサビリティは、個々のオブジェクトインスタンスを個別に処理する要件を克服します。相互に交わる結合を計算することで、仮説は別々のインスタンスにまとめられ、オブジェクトインスタンスの数に関して実行時のオーバーヘッドを無視できる。複数の挑戦的な標準データセットの結果から、ポーズ推定性能は、35倍以上高速であるにもかかわらず、単一モデルの最先端アプローチよりも優れていることが示された。さらに,90以上のオブジェクトインスタンスが存在する画像に対して,リアルタイム適用性(>24fps)を示す分析も提供する。さらに,6次元ポーズを用いた幾何対応型オブジェクトポーズ推定の利点を示す。

関連論文リスト

One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers [9.899633398596672]
ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、レンダリングテンプレートのマッチングに使用される。 LMO、YCBV、TLESSデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-09-21T11:53:01Z)
PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。 3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。 PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文参考訳（メタデータ） (2023-04-03T21:14:59Z)
Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文参考訳（メタデータ） (2022-06-23T16:29:53Z)
Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文参考訳（メタデータ） (2022-04-26T18:00:08Z)
GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting [103.74918834553249]
GPV-Poseはロバストなカテゴリーレベルのポーズ推定のための新しいフレームワークである。幾何学的洞察を利用して、カテゴリーレベルのポーズ感応的特徴の学習を強化する。一般的な公開ベンチマークにおいて、最先端の競合相手に優れた結果をもたらす。
論文参考訳（メタデータ） (2022-03-15T13:58:50Z)
CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation [19.284468553414918]
本稿では, 単視点RGB-D観測による同時多目的3次元再構成, 6次元ポーズ, サイズ推定の複雑な課題について検討する。既存のアプローチは主に、イメージ内の各オブジェクトインスタンスをローカライズして検出し、3Dメッシュまたは6Dポーズに回帰する複雑なマルチステージパイプラインに従う。本研究では,3次元形状の予測と6次元ポーズと大きさの同時推定を,バウンディングボックスフリーで行うための簡単な一段階的手法を提案する。
論文参考訳（メタデータ） (2022-03-03T18:59:04Z)
Disentangled Implicit Shape and Pose Learning for Scalable 6D Pose Estimation [44.8872454995923]
単一オートエンコーダを用いた複数オブジェクトの合成データに対する自己教師付き学習により,スケーラブルな6次元ポーズ推定のための新しい手法を提案する。提案手法は,T-LESS と NOCS REAL275 という実データを持つ2つのマルチオブジェクトベンチマークで検証し,ポーズ推定精度と一般化の点で既存の RGB 法より優れていることを示す。
論文参考訳（メタデータ） (2021-07-27T01:55:30Z)
CosyPose: Consistent multi-view multi-object 6D pose estimation [48.097599674329004]
単視点単体6次元ポーズ推定法を提案し、6次元オブジェクトのポーズ仮説を生成する。第2に、異なる入力画像間で個々の6次元オブジェクトのポーズをマッチングするロバストな手法を開発する。第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。
論文参考訳（メタデータ） (2020-08-19T14:11:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。