論文の概要: Cubify Anything: Scaling Indoor 3D Object Detection
- arxiv url: http://arxiv.org/abs/2412.04458v1
- Date: Thu, 05 Dec 2024 18:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:25.124174
- Title: Cubify Anything: Scaling Indoor 3D Object Detection
- Title(参考訳): Cubify Anything:屋内3Dオブジェクト検出のスケーリング
- Authors: Justin Lazarow, David Griffiths, Gefen Kohavi, Francisco Crespo, Afshin Dehghan,
- Abstract要約: 本研究では,コモディティハンドヘルドデバイスから取得した1つのRGB(-D)フレームについて,屋内3次元物体検出について考察する。
このデータセットは、1K以上の高精度のレーザースキャンシーンに400K以上の3Dオブジェクトを徹底的にラベル付けする。
次に,RGB(-D)入力から得られる2D特徴から直接3Dボックスを予測し,3Dを点数やボクセルベース表現で操作する代わりに,完全なトランスフォーマー3Dオブジェクト検出ベースラインであるCuTRを確立する。
- 参考スコア(独自算出の注目度): 4.338330763853994
- License:
- Abstract: We consider indoor 3D object detection with respect to a single RGB(-D) frame acquired from a commodity handheld device. We seek to significantly advance the status quo with respect to both data and modeling. First, we establish that existing datasets have significant limitations to scale, accuracy, and diversity of objects. As a result, we introduce the Cubify-Anything 1M (CA-1M) dataset, which exhaustively labels over 400K 3D objects on over 1K highly accurate laser-scanned scenes with near-perfect registration to over 3.5K handheld, egocentric captures. Next, we establish Cubify Transformer (CuTR), a fully Transformer 3D object detection baseline which rather than operating in 3D on point or voxel-based representations, predicts 3D boxes directly from 2D features derived from RGB(-D) inputs. While this approach lacks any 3D inductive biases, we show that paired with CA-1M, CuTR outperforms point-based methods - accurately recalling over 62% of objects in 3D, and is significantly more capable at handling noise and uncertainty present in commodity LiDAR-derived depth maps while also providing promising RGB only performance without architecture changes. Furthermore, by pre-training on CA-1M, CuTR can outperform point-based methods on a more diverse variant of SUN RGB-D - supporting the notion that while inductive biases in 3D are useful at the smaller sizes of existing datasets, they fail to scale to the data-rich regime of CA-1M. Overall, this dataset and baseline model provide strong evidence that we are moving towards models which can effectively Cubify Anything.
- Abstract(参考訳): 本研究では,コモディティハンドヘルドデバイスから取得した1つのRGB(-D)フレームについて,屋内3次元物体検出について考察する。
データとモデリングの両方に関して、現状を大きく前進させようとしています。
まず、既存のデータセットには、オブジェクトのスケール、正確性、多様性に重大な制限があることを確認します。
その結果,Cubeify-Anything 1M (CA-1M)データセットを導入し,400K以上の3Dオブジェクトを1K以上の高精度なレーザースキャンシーンにラベル付けし,3.5K以上のハンドヘルド・エゴセントリックキャプチャにほぼ完全登録した。
次に,RGB(-D)入力から得られる2D特徴から直接3Dボックスを予測し,3Dを点数やボクセルベース表現で操作する代わりに,完全なトランスフォーマー3Dオブジェクト検出ベースラインであるCuTRを確立する。
このアプローチには3Dインダクティブバイアスがないが、CA-1Mと組み合わせたCuTRは、正確に3D内のオブジェクトの62%以上をリコールし、コモディティLiDAR由来の奥行きマップに存在するノイズや不確実性を扱うとともに、アーキテクチャの変更なしに、有望なRGBのみのパフォーマンスを提供する。
さらに、CA-1Mで事前トレーニングを行うことで、CuTRはより多様なSUN RGB-Dでポイントベースの手法を上回り、既存のデータセットの小さなサイズで3Dの帰納バイアスが有用であるにもかかわらず、CA-1Mのデータリッチな構造にスケールできないという考えを支持することができる。
全体として、このデータセットとベースラインモデルは、Anythingを効果的にキューブできるモデルに向かっていることを示す強力な証拠となります。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - TR3D: Towards Real-Time Indoor 3D Object Detection [6.215404942415161]
TR3Dは、エンドツーエンドで訓練された完全畳み込み3Dオブジェクト検出モデルである。
ポイントクラウドとRGBの両方の入力を利用するため、我々は2Dと3Dの機能の早期融合を導入する。
TR3D+FFと呼ばれる初期の特徴融合モデルでは,SUN RGB-Dデータセット上で既存の3Dオブジェクト検出手法よりも優れている。
論文 参考訳(メタデータ) (2023-02-06T15:25:50Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。