論文の概要: HoW-3D: Holistic 3D Wireframe Perception from a Single Image
- arxiv url: http://arxiv.org/abs/2208.06999v1
- Date: Mon, 15 Aug 2022 04:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:04:39.087962
- Title: HoW-3D: Holistic 3D Wireframe Perception from a Single Image
- Title(参考訳): HoW-3D:単一画像からのホロスティックな3Dワイヤーフレーム認識
- Authors: Wenchao Ma and Bin Tan and Nan Xue and Tianfu Wu and Xianwei Zheng and
Gui-Song Xia
- Abstract要約: 本稿では, ホロスティック2次元画像における3次元ワイヤフレーム認識(Ho-3D)の問題点について検討する。
オブジェクトは単一のビューから直接観察できないため、オブジェクトは単一のビューから直接観察することはできない。
- 参考スコア(独自算出の注目度): 32.64960303211405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the problem of holistic 3D wireframe perception (HoW-3D),
a new task of perceiving both the visible 3D wireframes and the invisible ones
from single-view 2D images. As the non-front surfaces of an object cannot be
directly observed in a single view, estimating the non-line-of-sight (NLOS)
geometries in HoW-3D is a fundamentally challenging problem and remains open in
computer vision. We study the problem of HoW-3D by proposing an ABC-HoW
benchmark, which is created on top of CAD models sourced from the ABC-dataset
with 12k single-view images and the corresponding holistic 3D wireframe models.
With our large-scale ABC-HoW benchmark available, we present a novel Deep
Spatial Gestalt (DSG) model to learn the visible junctions and line segments as
the basis and then infer the NLOS 3D structures from the visible cues by
following the Gestalt principles of human vision systems. In our experiments,
we demonstrate that our DSG model performs very well in inferring the holistic
3D wireframes from single-view images. Compared with the strong baseline
methods, our DSG model outperforms the previous wireframe detectors in
detecting the invisible line geometry in single-view images and is even very
competitive with prior arts that take high-fidelity PointCloud as inputs on
reconstructing 3D wireframes.
- Abstract(参考訳): 本稿では,可視3次元ワイヤーフレームと可視2次元画像の両方を知覚する新しい課題である3次元ワイヤフレーム知覚問題(how-3d)について検討する。
物体の非正面面は1つの視点では直接観測できないため、HoW-3Dにおける非視線(NLOS)測度を推定することは根本的な問題であり、コンピュータビジョンでは未解決のままである。
ABC-HoW ベンチマークは,ABC データベースをベースとした CAD モデル上に1k のシングルビュー画像とそれに対応する総体的な3D ワイヤフレームモデルを提案する。
大規模abc-howベンチマークを利用可能とし,人間の視覚システムのgestalt原則に従うことで,可視接合部と線分を基本として学習し,nlos 3d構造を可視手がかりから推定する,新しい深部空間ゲスタラット(dsg)モデルを提案する。
実験では,DSGモデルが一視点画像から総体的な3Dワイヤフレームを推定する際の性能を実証した。
強力なベースライン法と比較すると,DSGモデルは従来のワイヤフレーム検出器よりも高い性能を示し,高忠実なPointCloudを3次元ワイヤフレーム再構築のインプットとして利用する先行技術と非常に競合する。
関連論文リスト
- LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - OASIS: A Large-Scale Dataset for Single Image 3D in the Wild [48.76043720428693]
我々は,140,000枚の画像に対して,詳細な3D形状のアノテーションを付加したワンイメージ3DのデータセットであるOpen s of Single Image Surfaces (OASIS)を提示する。
我々は、様々な単一画像の3Dタスクで先行モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2020-07-26T20:46:41Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。