論文の概要: SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB
image
- arxiv url: http://arxiv.org/abs/2210.01044v1
- Date: Mon, 3 Oct 2022 16:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:01:00.711475
- Title: SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB
image
- Title(参考訳): sparc:単一のrgb画像におけるcadモデルのアライメントのためのスパースレンダリング・アンド・コンプリート
- Authors: Florian Langer, Gwangbin Bae, Ignas Budvytis, Roberto Cipolla
- Abstract要約: 1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。
我々は、正規化されたオブジェクト座標に依存するよりも、スパースで反復的で、レンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示した。
我々のアライメント手順は、わずか3回のイテレーションで収束し、挑戦的な実世界のデータセットであるScanNetの最先端のパフォーマンスを改善します。
- 参考スコア(独自算出の注目度): 21.77811443143683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating 3D shapes and poses of static objects from a single image has
important applications for robotics, augmented reality and digital content
creation. Often this is done through direct mesh predictions which produces
unrealistic, overly tessellated shapes or by formulating shape prediction as a
retrieval task followed by CAD model alignment. Directly predicting CAD model
poses from 2D image features is difficult and inaccurate. Some works, such as
ROCA, regress normalised object coordinates and use those for computing poses.
While this can produce more accurate pose estimates, predicting normalised
object coordinates is susceptible to systematic failure. Leveraging efficient
transformer architectures we demonstrate that a sparse, iterative,
render-and-compare approach is more accurate and robust than relying on
normalised object coordinates. For this we combine 2D image information
including sparse depth and surface normal values which we estimate directly
from the image with 3D CAD model information in early fusion. In particular, we
reproject points sampled from the CAD model in an initial, random pose and
compute their depth and surface normal values. This combined information is the
input to a pose prediction network, SPARC-Net which we train to predict a 9 DoF
CAD model pose update. The CAD model is reprojected again and the next pose
update is predicted. Our alignment procedure converges after just 3 iterations,
improving the state-of-the-art performance on the challenging real-world
dataset ScanNet from 25.0% to 31.8% instance alignment accuracy. Code will be
released at https://github.com/florianlanger/SPARC .
- Abstract(参考訳): 1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。
多くの場合、これは非現実的で過剰な形状を生成するダイレクトメッシュ予測や、形状予測を検索タスクとして定式化し、CADモデルアライメントによって行われる。
2次元画像特徴からcadモデルのポーズを直接予測することは困難で不正確である。
ROCAのようないくつかの作品では、正規化されたオブジェクト座標を回帰し、それらをコンピュータのポーズに使用する。
これはより正確なポーズ推定を生成することができるが、正規化されたオブジェクト座標の予測は体系的な失敗に影響を受けやすい。
効率的なトランスフォーマーアーキテクチャを活用することで、正規化されたオブジェクト座標に依存するよりも、スパースで反復的でレンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示す。
そこで我々は,画像から直接推定するスパース深度と表面正規値を含む2次元画像情報と早期融合時の3次元CADモデル情報とを組み合わせる。
特に、CADモデルからサンプリングした点を初期ランダムなポーズで再生成し、その深さと表面の正規値を計算する。
この組み合わせ情報は、ポーズ予測ネットワークSPARC-Netへの入力であり、9DoFCADモデルのポーズ更新を予測できるようにトレーニングする。
CADモデルは再び再計画され、次のポーズ更新が予測される。
我々のアライメント手順はわずか3イテレーションで収束し、挑戦的な現実世界のデータセットであるScanNetの最先端のパフォーマンスを25.0%から31.8%のインスタンスアライメント精度に改善する。
コードはhttps://github.com/florianlanger/SPARC でリリースされる。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Personalized 3D Human Pose and Shape Refinement [19.082329060985455]
回帰に基づく手法は3次元人間のポーズと形状推定の分野を支配してきた。
本稿では,初期人間のモデル推定値と対応する画像との密接な対応性を構築することを提案する。
提案手法は画像モデルアライメントの改善だけでなく,3次元精度の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-18T10:13:53Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence [64.77224422330737]
GigaPoseは、RGB画像におけるCADベースの新しいオブジェクトポーズ推定のための高速で堅牢で正確な方法である。
提案手法では,通常の3次元ではなく,2自由度空間でテンプレートをサンプリングする。
最先端の精度を実現し、既存の精錬手法とシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-11-23T18:55:03Z) - Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文 参考訳(メタデータ) (2023-10-17T12:01:32Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Leveraging Geometry for Shape Estimation from a Single RGB Image [25.003116148843525]
RGB画像からレンダリングCADモデルへのキーポイントのマッチングにより,より正確なオブジェクトポーズ予測が可能となることを示す。
また、キーポイントマッチングは、オブジェクトのポーズを推定するだけでなく、オブジェクト自体の形状を変更するためにも使用できることを示す。
提案された幾何学的形状予測により、最先端のAPメッシュは、見えない物体では33.2から37.8、見えない物体では8.2から17.1に改善される。
論文 参考訳(メタデータ) (2021-11-10T10:17:56Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。