論文の概要: MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape
Supervision
- arxiv url: http://arxiv.org/abs/2003.03522v1
- Date: Sat, 7 Mar 2020 06:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:48:32.715169
- Title: MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape
Supervision
- Title(参考訳): MobilePose: 弱みを重畳した未確認物体のリアルタイムポース推定
- Authors: Tingbo Hou, Adel Ahmadyan, Liangkai Zhang, Jianing Wei, and Matthias
Grundmann
- Abstract要約: モバイルフレンドリーなネットワークとしてMobilePose-BaseとMobilePose-Shapeを提案する。
MobilePose-Baseは、ポーズの監視のみを行うときに使用され、後者は、形状の監視が利用可能で、弱いものであっても使用することができる。
我々のモデルは、弱い、騒々しい形状の監督によって、実データと合成データを混合して訓練されている。
- 参考スコア(独自算出の注目度): 3.9146761527401424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of detecting unseen objects from RGB
images and estimating their poses in 3D. We propose two mobile friendly
networks: MobilePose-Base and MobilePose-Shape. The former is used when there
is only pose supervision, and the latter is for the case when shape supervision
is available, even a weak one. We revisit shape features used in previous
methods, including segmentation and coordinate map. We explain when and why
pixel-level shape supervision can improve pose estimation. Consequently, we add
shape prediction as an intermediate layer in the MobilePose-Shape, and let the
network learn pose from shape. Our models are trained on mixed real and
synthetic data, with weak and noisy shape supervision. They are ultra
lightweight that can run in real-time on modern mobile devices (e.g. 36 FPS on
Galaxy S20). Comparing with previous single-shot solutions, our method has
higher accuracy, while using a significantly smaller model (2~3% in model size
or number of parameters).
- Abstract(参考訳): 本稿では,RGB画像から見えない物体を検出し,そのポーズを3Dで推定する問題に対処する。
モバイルフレンドリーなネットワークとしてMobilePose-BaseとMobilePose-Shapeを提案する。
前者は監視のみを行う場合に使用され、後者は、形状の監督が可能である場合、弱い場合であっても使用される。
分割や座標マップなど,従来手法で用いた形状の特徴を再検討する。
画素レベルの形状監督がポーズ推定を改善できる時期と理由を説明する。
そこで,移動体形状の中間層として形状予測を付加し,ネットワークに形状からポーズを学習させる。
我々のモデルは、実データと合成データを組み合わせて訓練され、弱い形とうるさい形を監督する。
超軽量で、現代のモバイルデバイス(Galaxy S20の36 FPSなど)でリアルタイムに動作できる。
従来のシングルショット法に比べて精度は高く,モデルサイズやパラメータ数では2~3%であった。
関連論文リスト
- GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence [64.77224422330737]
GigaPoseは、RGB画像におけるCADベースの新しいオブジェクトポーズ推定のための高速で堅牢で正確な方法である。
提案手法では,通常の3次元ではなく,2自由度空間でテンプレートをサンプリングする。
最先端の精度を実現し、既存の精錬手法とシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-11-23T18:55:03Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - OnePose: One-Shot Object Pose Estimation without CAD Models [30.307122037051126]
OnePoseはCADモデルに依存しておらず、インスタンスやカテゴリ固有のネットワークトレーニングなしで任意のカテゴリのオブジェクトを処理できる。
OnePoseは視覚的なローカライゼーションからアイデアを導き、オブジェクトのスパースSfMモデルを構築するために、オブジェクトの単純なRGBビデオスキャンしか必要としない。
既存の視覚的ローカライゼーション手法の低速な実行を緩和するため,クエリ画像中の2D関心点とSfMモデルの3Dポイントとを直接マッチングするグラフアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T17:59:21Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Leveraging Geometry for Shape Estimation from a Single RGB Image [25.003116148843525]
RGB画像からレンダリングCADモデルへのキーポイントのマッチングにより,より正確なオブジェクトポーズ予測が可能となることを示す。
また、キーポイントマッチングは、オブジェクトのポーズを推定するだけでなく、オブジェクト自体の形状を変更するためにも使用できることを示す。
提案された幾何学的形状予測により、最先端のAPメッシュは、見えない物体では33.2から37.8、見えない物体では8.2から17.1に改善される。
論文 参考訳(メタデータ) (2021-11-10T10:17:56Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。