論文の概要: Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image
- arxiv url: http://arxiv.org/abs/2108.09368v1
- Date: Fri, 20 Aug 2021 20:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 13:12:03.932872
- Title: Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image
- Title(参考訳): patch2cad:パッチワイズ埋め込み学習による1枚の画像からの字形検索
- Authors: Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, Angela Dai
- Abstract要約: 本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
- 参考スコア(独自算出の注目度): 58.953160501596805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D perception of object shapes from RGB image input is fundamental towards
semantic scene understanding, grounding image-based perception in our spatially
3-dimensional real-world environments. To achieve a mapping between image views
of objects and 3D shapes, we leverage CAD model priors from existing
large-scale databases, and propose a novel approach towards constructing a
joint embedding space between 2D images and 3D CAD models in a patch-wise
fashion -- establishing correspondences between patches of an image view of an
object and patches of CAD geometry. This enables part similarity reasoning for
retrieving similar CADs to a new image view without exact matches in the
database. Our patch embedding provides more robust CAD retrieval for shape
estimation in our end-to-end estimation of CAD model shape and pose for
detected objects in a single input image. Experiments on in-the-wild, complex
imagery from ScanNet show that our approach is more robust than state of the
art in real-world scenarios without any exact CAD matches.
- Abstract(参考訳): rgb画像入力による物体形状の3次元知覚は,空間的3次元実世界環境におけるイメージベース知覚の基盤となる意味的シーン理解に向けている。
オブジェクトのイメージビューと3次元形状のマッピングを実現するため,既存の大規模データベースからCADモデルに先立って,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案し,オブジェクトの画像ビューのパッチとCAD幾何学のパッチとの対応性を確立する。
これにより、データベース内の正確な一致なしに、類似したCADを新しい画像ビューに検索する部分類似性推論が可能になる。
パッチ埋め込みは,単一の入力画像におけるcadモデル形状とポーズのエンドツーエンド推定において,形状推定のためのよりロバストなcad検索を提供する。
ScanNetの複雑な画像を用いた実験により、我々のアプローチはCADの正確な一致のない実世界のシナリオにおける最先端技術よりも堅牢であることが示された。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文 参考訳(メタデータ) (2023-10-17T12:01:32Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - ROCA: Robust CAD Model Retrieval and Alignment from a Single Image [22.03752392397363]
本稿では,形状データベースから1つの入力画像へ3次元CADモデルを検索・アライメントする,新しいエンドツーエンドアプローチであるROCAを提案する。
ScanNetによる挑戦的で現実的な画像の実験では、ROCAは検索対応CADアライメントの精度が9.5%から17.6%に向上した。
論文 参考訳(メタデータ) (2021-12-03T16:02:32Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。