論文の概要: Explicit3D: Graph Network with Spatial Inference \\for Single Image 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2302.06494v1
- Date: Mon, 13 Feb 2023 16:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:53:24.435240
- Title: Explicit3D: Graph Network with Spatial Inference \\for Single Image 3D
Object Detection
- Title(参考訳): explicit3d: 空間的推論によるグラフネットワーク : 単一画像3次元物体検出のために
- Authors: Yanjun Liu, Yehu Shen, Qingmin Liao and Wenming Yang
- Abstract要約: 本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
- 参考スコア(独自算出の注目度): 33.92846980379943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor 3D object detection is an essential task in single image scene
understanding, impacting spatial cognition fundamentally in visual reasoning.
Existing works on 3D object detection from a single image either pursue this
goal through independent predictions of each object or implicitly reason over
all possible objects, failing to harness relational geometric information
between objects. To address this problem, we propose a dynamic sparse graph
pipeline named Explicit3D based on object geometry and semantics features.
Taking the efficiency into consideration, we further define a relatedness score
and design a novel dynamic pruning algorithm followed by a cluster sampling
method for sparse scene graph generation and updating. Furthermore, our
Explicit3D introduces homogeneous matrices and defines new relative loss and
corner loss to model the spatial difference between target pairs explicitly.
Instead of using ground-truth labels as direct supervision, our relative and
corner loss are derived from the homogeneous transformation, which renders the
model to learn the geometric consistency between objects. The experimental
results on the SUN RGB-D dataset demonstrate that our Explicit3D achieves
better performance balance than the-state-of-the-art.
- Abstract(参考訳): 屋内の3d物体検出は、単一の画像シーン理解において必須の課題であり、視覚推論において基本的に空間認知に影響を与える。
単一の画像からの3dオブジェクト検出に関する既存の作業は、各オブジェクトの独立した予測を通じてこの目標を追求するか、すべての可能なオブジェクトを暗黙的に推論し、オブジェクト間の関係幾何学的情報を活用できないかのどちらかである。
この問題に対処するために,オブジェクトの幾何学的特徴と意味論的特徴に基づくExplicit3Dという動的スパースグラフパイプラインを提案する。
効率を考慮し、関連性スコアを定義し、新しい動的プルーニングアルゴリズムを設計し、続いてスパースシーングラフの生成と更新のためのクラスタサンプリング手法を設計する。
さらに, 対象対間の空間差を明示的にモデル化するために, 均質行列を導入し, 新しい相対損失とコーナー損失を定義した。
接地トラスラベルを直接監督する代わりに、我々の相対損失とコーナー損失は、物体間の幾何的整合性を学ぶためのモデルである同質な変換から導かれる。
SUN RGB-Dデータセットの実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
関連論文リスト
- Parameterization-driven Neural Surface Reconstruction for Object-oriented Editing in Neural Rendering [35.69582529609475]
本稿では,ニューラル暗黙表面を球面やポリキューブのような単純なパラメトリック領域にパラメータ化するための新しいニューラルアルゴリズムを提案する。
オブジェクトのゼロレベルセットからの前方マッピングと後方マッピングのための逆変形を用いて、オブジェクトとドメイン間の双方向の変形を計算する。
本手法の有効性を人間の頭部と人工物の画像に示す。
論文 参考訳(メタデータ) (2023-10-09T08:42:40Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Object DGCNN: 3D Object Detection using Dynamic Graphs [32.090268859180334]
3Dオブジェクト検出は、複雑なトレーニングとテストパイプラインを伴うことが多い。
近年,非最大抑圧型2次元物体検出モデルに着想を得て,点雲上の3次元物体検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T17:59:38Z) - Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving
Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。
従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文 参考訳(メタデータ) (2021-06-16T13:18:08Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。