論文の概要: Category-Level Object Shape and Pose Estimation in Less Than a Millisecond
- arxiv url: http://arxiv.org/abs/2509.18979v1
- Date: Tue, 23 Sep 2025 13:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.858452
- Title: Category-Level Object Shape and Pose Estimation in Less Than a Millisecond
- Title(参考訳): カテゴリーレベル物体形状と1ミリ秒未満のポス推定
- Authors: Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone,
- Abstract要約: 形状とポーズ推定のための高速局所解法を提案する。
学習したフロントエンドを使用して、ターゲットオブジェクト上のスパースなカテゴリレベルのセマンティックキーポイントを検出する。
解法器の1イテレーションはおよそ100マイクロ秒で動作し、高速な外れ値の拒絶を可能にする。
- 参考スコア(独自算出の注目度): 13.78778327399253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object shape and pose estimation is a foundational robotics problem, supporting tasks from manipulation to scene understanding and navigation. We present a fast local solver for shape and pose estimation which requires only category-level object priors and admits an efficient certificate of global optimality. Given an RGB-D image of an object, we use a learned front-end to detect sparse, category-level semantic keypoints on the target object. We represent the target object's unknown shape using a linear active shape model and pose a maximum a posteriori optimization problem to solve for position, orientation, and shape simultaneously. Expressed in unit quaternions, this problem admits first-order optimality conditions in the form of an eigenvalue problem with eigenvector nonlinearities. Our primary contribution is to solve this problem efficiently with self-consistent field iteration, which only requires computing a 4-by-4 matrix and finding its minimum eigenvalue-vector pair at each iterate. Solving a linear system for the corresponding Lagrange multipliers gives a simple global optimality certificate. One iteration of our solver runs in about 100 microseconds, enabling fast outlier rejection. We test our method on synthetic data and a variety of real-world settings, including two public datasets and a drone tracking scenario. Code is released at https://github.com/MIT-SPARK/Fast-ShapeAndPose.
- Abstract(参考訳): オブジェクトの形状とポーズの推定は基本的なロボット工学の問題であり、操作からシーンの理解とナビゲーションまでタスクをサポートする。
我々は,カテゴリレベルのオブジェクトのみを必要とする形状とポーズ推定のための高速局所解法を提案し,大域的最適性の効率的な証明を認めた。
オブジェクトのRGB-D画像が与えられた場合、学習したフロントエンドを使用して、対象オブジェクト上のスパースなカテゴリレベルのセマンティックキーポイントを検出する。
本研究では,線形アクティブ形状モデルを用いて対象物体の未知形状を表現し,位置,向き,形状を同時に解くために,最大余剰最適化問題を提起する。
単位四元数で表されるこの問題は、固有ベクトル非線形性を持つ固有値問題の形で一階最適条件を認める。
我々の主な貢献は、この問題を4-by-4行列を計算し、各反復で最小値ベクトル対を見つけることしか必要としない、自己一貫性のフィールド反復で効率的に解くことである。
対応するラグランジュ乗数に対する線形系を解くことは、単純な大域的最適性証明を与える。
解法器の1イテレーションはおよそ100マイクロ秒で動作し、高速な外れ値の拒絶を可能にする。
我々は,2つの公開データセットとドローン追跡シナリオを含む,合成データとさまざまな実世界の設定について,本手法を検証した。
コードはhttps://github.com/MIT-SPARK/Fast-ShapeAndPoseで公開されている。
関連論文リスト
- DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Leveraging Positional Encoding for Robust Multi-Reference-Based Object
6D Pose Estimation [21.900422840817726]
物体の姿勢を正確に推定することは、コンピュータビジョンとロボット工学において重要な課題である。
本稿では,これらの制約を分析し,克服するための新しい戦略を提案する。
Linemod、Linemod-Occlusion、およびYCB-Videoデータセットに関する我々の実験は、我々のアプローチが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2024-01-29T16:42:15Z) - Vanishing Point Estimation in Uncalibrated Images with Prior Gravity
Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。
2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。
また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文 参考訳(メタデータ) (2023-08-21T13:03:25Z) - Efficient first-order predictor-corrector multiple objective
optimization for fair misinformation detection [5.139559672771439]
多重目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としており、機械学習において重要な応用を見出した。
本稿では,線形にしかスケールしないガウスニュートン近似を提案し,イテレーション毎に一階内積しか必要としない。
このイノベーションは、大規模ネットワークで予測器のコレクタを可能にする。
論文 参考訳(メタデータ) (2022-09-15T12:32:15Z) - Real Time Detection Free Tracking of Multiple Objects Via Equilibrium
Optimizer [0.951828574518325]
複数オブジェクト追跡(MOT)は通常、特別なハードウェアとより高い計算を必要とするため、難しい作業である。
平衡アルゴリズム(EO)とオブジェクトの境界ボックスの分解能の低減によるMOTの新しい枠組みを提案する。
実験結果から,EO多対象トラッカーが追従結果を満たすことが確認された。
論文 参考訳(メタデータ) (2022-05-22T06:04:34Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - Globally Optimal Relative Pose Estimation with Gravity Prior [63.74377065002315]
例えば、車やUAVで使われるスマートフォン、タブレット、カメラシステムは、通常は重力ベクトルを正確に測定できるIMUを備えている。
我々は,最小二乗の意味での代数的誤差を最小限に抑え,過度に決定されたポーズにおける相対的なポーズを推定する,新しいグローバル最適解法を提案する。
提案した解法は、約50万枚の画像対を持つ4つの実世界のデータセットの最先端の解法と比較される。
論文 参考訳(メタデータ) (2020-12-01T13:09:59Z) - Factor Graph based 3D Multi-Object Tracking in Point Clouds [8.411514688735183]
明示的および固定的な代入に依存しない新しい最適化に基づくアプローチを提案する。
我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。
論文 参考訳(メタデータ) (2020-08-12T13:34:46Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。