論文の概要: 3D-Aware Object Localization using Gaussian Implicit Occupancy Function
- arxiv url: http://arxiv.org/abs/2303.02058v2
- Date: Wed, 2 Aug 2023 14:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:53:20.418937
- Title: 3D-Aware Object Localization using Gaussian Implicit Occupancy Function
- Title(参考訳): ガウス帰属関数を用いた3次元物体定位
- Authors: Vincent Gaudilli\`ere, Leo Pauly, Arunkumar Rathinam, Albert Garcia
Sanchez, Mohamed Adel Musallam, Djamila Aouada
- Abstract要約: 本稿では,物体の3次元楕円体近似の投影である楕円体を2次元目標位置推定のための3次元認識楕円体ラベル(textiti.e.)について考察する。
投影楕円は、従来の3D非依存のバウンディングボックスラベルよりも、物体の幾何学的情報やポーズ(3D認識)をより多く持っている。
- 参考スコア(独自算出の注目度): 7.779317321320262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To automatically localize a target object in an image is crucial for many
computer vision applications. To represent the 2D object, ellipse labels have
recently been identified as a promising alternative to axis-aligned bounding
boxes. This paper further considers 3D-aware ellipse labels, \textit{i.e.},
ellipses which are projections of a 3D ellipsoidal approximation of the object,
for 2D target localization. Indeed, projected ellipses carry more geometric
information about the object geometry and pose (3D awareness) than traditional
3D-agnostic bounding box labels. Moreover, such a generic 3D ellipsoidal model
allows for approximating known to coarsely known targets. We then propose to
have a new look at ellipse regression and replace the discontinuous geometric
ellipse parameters with the parameters of an implicit Gaussian distribution
encoding object occupancy in the image. The models are trained to regress the
values of this bivariate Gaussian distribution over the image pixels using a
statistical loss function. We introduce a novel non-trainable differentiable
layer, E-DSNT, to extract the distribution parameters. Also, we describe how to
readily generate consistent 3D-aware Gaussian occupancy parameters using only
coarse dimensions of the target and relative pose labels. We extend three
existing spacecraft pose estimation datasets with 3D-aware Gaussian occupancy
labels to validate our hypothesis. Labels and source code are publicly
accessible here: https://cvi2.uni.lu/3d-aware-obj-loc/.
- Abstract(参考訳): 多くのコンピュータビジョンアプリケーションにとって重要な画像中の対象オブジェクトを自動的にローカライズする。
2Dオブジェクトを表現するため、楕円ラベルは軸方向の有界箱に代わる有望な代替物として最近特定されている。
さらに,物体の3次元楕円体近似の射影である楕円体を2次元ターゲットローカライゼーションのために3次元認識楕円体ラベルである \textit{i.e.} を考える。
実際、投影された楕円形は、従来の3Dに依存しない境界ボックスラベルよりも、物体の幾何学的情報やポーズ(3D認識)をより多く持っている。
さらに、そのような一般的な3次元楕円モデルは、既知の粗いターゲットに近似することができる。
次に,不連続な幾何学的楕円パラメータを画像中の物体の占有率を符号化する暗黙のガウス分布のパラメータに置き換える,楕円回帰を新たに見ることを提案する。
モデルは、統計的損失関数を用いて、画像画素上でのこの二変量ガウス分布の値の回帰を訓練する。
分散パラメータを抽出するために、新しい非学習可能な微分可能層、E-DSNTを導入する。
また、ターゲットの粗い寸法と相対的なポーズラベルのみを用いて、一貫した3D対応ガウス占有パラメータを容易に生成する方法を述べる。
我々は,3次元認識ガウス空間ラベルを用いた既存の3つの衛星ポーズ推定データセットを拡張し,仮説を検証した。
ラベルとソースコードはここで公開されている。
関連論文リスト
- Oriented-grid Encoder for 3D Implicit Representations [10.02138130221506]
本論文は,3次元幾何エンコーダの3次元特性を明示的に利用した最初のものである。
提案手法は,従来の手法と比較して最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-02-09T19:28:13Z) - Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。
本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。
本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文 参考訳(メタデータ) (2023-12-19T20:18:29Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [71.54526294251887]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
離散的でグループ化された3Dガウスアンは、視覚的品質、きめ細かい粒度、効率で、あらゆるものを3Dで再構成、分割、編集できることを示す。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - 3D Shape Segmentation with Geometric Deep Learning [2.512827436728378]
本稿では,部分分割問題としてセグメント化全体を解くために,3次元形状の3次元拡張ビューを生成するニューラルネットワークベースのアプローチを提案する。
提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。
論文 参考訳(メタデータ) (2020-02-02T14:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。