論文の概要: Sparse Multi-Object Render-and-Compare
- arxiv url: http://arxiv.org/abs/2310.11184v1
- Date: Tue, 17 Oct 2023 12:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 16:10:12.314597
- Title: Sparse Multi-Object Render-and-Compare
- Title(参考訳): スパースなマルチオブジェクトレンダリング・アンド・コンプリート
- Authors: Florian Langer, Ignas Budvytis, Roberto Cipolla
- Abstract要約: 一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
- 参考スコア(独自算出の注目度): 33.97243145891282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing 3D shape and pose of static objects from a single image is an
essential task for various industries, including robotics, augmented reality,
and digital content creation. This can be done by directly predicting 3D shape
in various representations or by retrieving CAD models from a database and
predicting their alignments. Directly predicting 3D shapes often produces
unrealistic, overly smoothed or tessellated shapes. Retrieving CAD models
ensures realistic shapes but requires robust and accurate alignment. Learning
to directly predict CAD model poses from image features is challenging and
inaccurate. Works, such as ROCA, compute poses from predicted normalised object
coordinates which can be more accurate but are susceptible to systematic
failure. SPARC demonstrates that following a ''render-and-compare'' approach
where a network iteratively improves upon its own predictions achieves accurate
alignments. Nevertheless, it performs individual CAD alignment for every object
detected in an image. This approach is slow when applied to many objects as the
time complexity increases linearly with the number of objects and can not learn
inter-object relations. Introducing a new network architecture Multi-SPARC we
learn to perform CAD model alignments for multiple detected objects jointly.
Compared to other single-view methods we achieve state-of-the-art performance
on the challenging real-world dataset ScanNet. By improving the instance
alignment accuracy from 31.8% to 40.3% we perform similar to state-of-the-art
multi-view methods.
- Abstract(参考訳): 1枚の画像から静止物体の3d形状とポーズを再構築することは、ロボティクス、拡張現実、デジタルコンテンツ作成など、さまざまな産業にとって必須の課題である。
これは、様々な表現で3D形状を直接予測したり、データベースからCADモデルを検索してアライメントを予測することで実現できる。
直接的に3Dの形状を予測すると、非現実的で、過度に滑らかな形状が生じる。
CADモデルを取得することは、現実的な形状を保証するが、堅牢で正確なアライメントを必要とする。
画像特徴からCADモデルのポーズを直接予測する学習は困難で不正確である。
ROCAのような作業は、予測された正規化されたオブジェクト座標のポーズを計算し、より正確であるが、体系的な失敗の影響を受けやすい。
SPARCは、ネットワークが自身の予測を反復的に改善する'render-and-compare'アプローチに従って、正確なアライメントを実現することを示した。
それでも、画像で検出されたすべてのオブジェクトに対して個々のcadアライメントを実行する。
このアプローチは、時間複雑性がオブジェクトの数と線形に増大し、オブジェクト間の関係を学習できないため、多くのオブジェクトに適用すると遅い。
新しいネットワークアーキテクチャの導入 マルチSPARCでは、複数の検出対象に対してCADモデルアライメントを共同で実行する。
他のシングルビュー手法と比較して、挑戦的な現実世界のデータセットであるScanNetで最先端のパフォーマンスを達成する。
インスタンスアライメントの精度を31.8%から40.3%に向上させることで、最先端のマルチビューメソッドと同じようなパフォーマンスを実現している。
関連論文リスト
- ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB
image [21.77811443143683]
1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。
我々は、正規化されたオブジェクト座標に依存するよりも、スパースで反復的で、レンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示した。
我々のアライメント手順は、わずか3回のイテレーションで収束し、挑戦的な実世界のデータセットであるScanNetの最先端のパフォーマンスを改善します。
論文 参考訳(メタデータ) (2022-10-03T16:02:10Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Leveraging Geometry for Shape Estimation from a Single RGB Image [25.003116148843525]
RGB画像からレンダリングCADモデルへのキーポイントのマッチングにより,より正確なオブジェクトポーズ予測が可能となることを示す。
また、キーポイントマッチングは、オブジェクトのポーズを推定するだけでなく、オブジェクト自体の形状を変更するためにも使用できることを示す。
提案された幾何学的形状予測により、最先端のAPメッシュは、見えない物体では33.2から37.8、見えない物体では8.2から17.1に改善される。
論文 参考訳(メタデータ) (2021-11-10T10:17:56Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。