論文の概要: 3D-Aware Object Localization using Gaussian Implicit Occupancy Function
- arxiv url: http://arxiv.org/abs/2303.02058v2
- Date: Wed, 2 Aug 2023 14:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:53:20.418937
- Title: 3D-Aware Object Localization using Gaussian Implicit Occupancy Function
- Title(参考訳): ガウス帰属関数を用いた3次元物体定位
- Authors: Vincent Gaudilli\`ere, Leo Pauly, Arunkumar Rathinam, Albert Garcia
Sanchez, Mohamed Adel Musallam, Djamila Aouada
- Abstract要約: 本稿では,物体の3次元楕円体近似の投影である楕円体を2次元目標位置推定のための3次元認識楕円体ラベル(textiti.e.)について考察する。
投影楕円は、従来の3D非依存のバウンディングボックスラベルよりも、物体の幾何学的情報やポーズ(3D認識)をより多く持っている。
- 参考スコア(独自算出の注目度): 7.779317321320262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To automatically localize a target object in an image is crucial for many
computer vision applications. To represent the 2D object, ellipse labels have
recently been identified as a promising alternative to axis-aligned bounding
boxes. This paper further considers 3D-aware ellipse labels, \textit{i.e.},
ellipses which are projections of a 3D ellipsoidal approximation of the object,
for 2D target localization. Indeed, projected ellipses carry more geometric
information about the object geometry and pose (3D awareness) than traditional
3D-agnostic bounding box labels. Moreover, such a generic 3D ellipsoidal model
allows for approximating known to coarsely known targets. We then propose to
have a new look at ellipse regression and replace the discontinuous geometric
ellipse parameters with the parameters of an implicit Gaussian distribution
encoding object occupancy in the image. The models are trained to regress the
values of this bivariate Gaussian distribution over the image pixels using a
statistical loss function. We introduce a novel non-trainable differentiable
layer, E-DSNT, to extract the distribution parameters. Also, we describe how to
readily generate consistent 3D-aware Gaussian occupancy parameters using only
coarse dimensions of the target and relative pose labels. We extend three
existing spacecraft pose estimation datasets with 3D-aware Gaussian occupancy
labels to validate our hypothesis. Labels and source code are publicly
accessible here: https://cvi2.uni.lu/3d-aware-obj-loc/.
- Abstract(参考訳): 多くのコンピュータビジョンアプリケーションにとって重要な画像中の対象オブジェクトを自動的にローカライズする。
2Dオブジェクトを表現するため、楕円ラベルは軸方向の有界箱に代わる有望な代替物として最近特定されている。
さらに,物体の3次元楕円体近似の射影である楕円体を2次元ターゲットローカライゼーションのために3次元認識楕円体ラベルである \textit{i.e.} を考える。
実際、投影された楕円形は、従来の3Dに依存しない境界ボックスラベルよりも、物体の幾何学的情報やポーズ(3D認識)をより多く持っている。
さらに、そのような一般的な3次元楕円モデルは、既知の粗いターゲットに近似することができる。
次に,不連続な幾何学的楕円パラメータを画像中の物体の占有率を符号化する暗黙のガウス分布のパラメータに置き換える,楕円回帰を新たに見ることを提案する。
モデルは、統計的損失関数を用いて、画像画素上でのこの二変量ガウス分布の値の回帰を訓練する。
分散パラメータを抽出するために、新しい非学習可能な微分可能層、E-DSNTを導入する。
また、ターゲットの粗い寸法と相対的なポーズラベルのみを用いて、一貫した3D対応ガウス占有パラメータを容易に生成する方法を述べる。
我々は,3次元認識ガウス空間ラベルを用いた既存の3つの衛星ポーズ推定データセットを拡張し,仮説を検証した。
ラベルとソースコードはここで公開されている。
関連論文リスト
- PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Oriented-grid Encoder for 3D Implicit Representations [10.02138130221506]
本論文は,3次元幾何エンコーダの3次元特性を明示的に利用した最初のものである。
提案手法は,従来の手法と比較して最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-02-09T19:28:13Z) - Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。
本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。
本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文 参考訳(メタデータ) (2023-12-19T20:18:29Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D Shape Segmentation with Geometric Deep Learning [2.512827436728378]
本稿では,部分分割問題としてセグメント化全体を解くために,3次元形状の3次元拡張ビューを生成するニューラルネットワークベースのアプローチを提案する。
提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。
論文 参考訳(メタデータ) (2020-02-02T14:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。