論文の概要: Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image
- arxiv url: http://arxiv.org/abs/2111.03098v1
- Date: Thu, 4 Nov 2021 18:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 04:38:04.914760
- Title: Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image
- Title(参考訳): ボクセルによる画像からの複数物体の3次元検出と再構成
- Authors: Feng Liu, Xiaoming Liu
- Abstract要約: 入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
- 参考スコア(独自算出の注目度): 22.037472446683765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring 3D locations and shapes of multiple objects from a single 2D image
is a long-standing objective of computer vision. Most of the existing works
either predict one of these 3D properties or focus on solving both for a single
object. One fundamental challenge lies in how to learn an effective
representation of the image that is well-suited for 3D detection and
reconstruction. In this work, we propose to learn a regular grid of 3D voxel
features from the input image which is aligned with 3D scene space via a 3D
feature lifting operator. Based on the 3D voxel features, our novel
CenterNet-3D detection head formulates the 3D detection as keypoint detection
in the 3D space. Moreover, we devise an efficient coarse-to-fine reconstruction
module, including coarse-level voxelization and a novel local PCA-SDF shape
representation, which enables fine detail reconstruction and one order of
magnitude faster inference than prior methods. With complementary supervision
from both 3D detection and reconstruction, one enables the 3D voxel features to
be geometry and context preserving, benefiting both tasks.The effectiveness of
our approach is demonstrated through 3D detection and reconstruction in single
object and multiple object scenarios.
- Abstract(参考訳): 単一の2d画像から複数の物体の3d位置と形状を推測することは、コンピュータビジョンの長年の目的である。
既存の作品の多くは、これらの3dプロパティの1つを予測するか、1つのオブジェクトの双方を解決することに集中している。
1つの根本的な課題は、3D検出と再構成に適した画像の効果的な表現を学ぶ方法である。
本研究では,3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した入力画像から3次元ボクセル特徴の正規格子を学習することを提案する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
さらに, 粗度ボキセル化や局所的PCA-SDF形状表現など, より詳細な再現が可能で, 従来手法よりも1桁高速な推論が可能となる, 効率的な粗度・微細化モジュールを考案した。
3次元検出と再構成の両方を補完的に行うことにより,3次元ボクセルの特徴を幾何学的・文脈的に保存し,両方の作業に役立てることが可能となり,本手法の有効性は,単一のオブジェクトと複数のオブジェクトシナリオにおける3次元検出と再構築を通じて実証される。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。