論文の概要: What You See Is What You Detect: Towards better Object Densification in
3D detection
- arxiv url: http://arxiv.org/abs/2310.17842v1
- Date: Fri, 27 Oct 2023 01:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:10:31.185182
- Title: What You See Is What You Detect: Towards better Object Densification in
3D detection
- Title(参考訳): 物体の密度を3Dで検出する技術(動画あり)
- Authors: Tianran Liu, Zeping Zhang Morteza Mousa Pasandi, Robert Laganiere
- Abstract要約: 広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated the importance of object completion in 3D
Perception from Lidar signal. Several methods have been proposed in which
modules were used to densify the point clouds produced by laser scanners,
leading to better recall and more accurate results. Pursuing in that direction,
we present, in this work, a counter-intuitive perspective: the widely-used
full-shape completion approach actually leads to a higher error-upper bound
especially for far away objects and small objects like pedestrians. Based on
this observation, we introduce a visible part completion method that requires
only 11.3\% of the prediction points that previous methods generate. To recover
the dense representation, we propose a mesh-deformation-based method to augment
the point set associated with visible foreground objects. Considering that our
approach focuses only on the visible part of the foreground objects to achieve
accurate 3D detection, we named our method What You See Is What You Detect
(WYSIWYD). Our proposed method is thus a detector-independent model that
consists of 2 parts: an Intra-Frustum Segmentation Transformer (IFST) and a
Mesh Depth Completion Network(MDCNet) that predicts the foreground depth from
mesh deformation. This way, our model does not require the time-consuming
full-depth completion task used by most pseudo-lidar-based methods. Our
experimental evaluation shows that our approach can provide up to 12.2\%
performance improvements over most of the public baseline models on the KITTI
and NuScenes dataset bringing the state-of-the-art to a new level. The codes
will be available at
\textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}}
- Abstract(参考訳): 近年,lidar信号からの3次元知覚における物体完成の重要性が実証されている。
レーザースキャナーによって生成された点雲を密度化するためにモジュールを用いたいくつかの手法が提案されている。
広く使われているフル形状の完成アプローチは、特に遠くの物体や歩行者のような小さな物体に対して、より高いエラーアップバウンドをもたらします。
この観察に基づいて,従来の手法が生成する予測点の11.3\%しか必要としない可視部分補完法を提案する。
高密度表現を復元するために,目に見えるフォアグラウンドオブジェクトに関連する点集合を補強するメッシュデフォーメーションに基づく手法を提案する。
提案手法は, 正確な3次元検出を実現するために, 前景オブジェクトの可視部分のみに焦点をあてることから, 提案手法をWhat You See Is What You Detect (WYSIWYD) と名付けた。
提案手法は,前景深度をメッシュ変形から予測するifst(intra-frustum segmentation transformer)とmdcnet(mesh depth completion network)の2部分からなる検出器非依存モデルである。
このように、このモデルは、ほとんどの擬似ライダーベースのメソッドで使用される、時間を要する完全な補完タスクを必要としない。
実験により,KITTIデータセットとNuScenesデータセットの公開ベースラインモデルの大部分に対して,我々のアプローチが最大12.2\%のパフォーマンス向上を達成できることが確認された。
コードは \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}} で入手できる。
関連論文リスト
- FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Learning Object-level Point Augmentor for Semi-supervised 3D Object
Detection [85.170578641966]
半教師付き3次元オブジェクト検出のための局所変換を行うオブジェクトレベルポイント拡張器(OPA)を提案する。
このようにして、結果のオーグメンタは、無関係なバックグラウンドではなく、オブジェクトインスタンスを強調するように導出されます。
ScanNetとSUN RGB-Dデータセットの実験は、提案したOPAが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2022-12-19T06:56:14Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - FCAF3D: Fully Convolutional Anchor-Free 3D Object Detection [3.330229314824913]
FCAF3D - 完全畳み込み型アンカーフリー屋内3D物体検出法を提案する。
これは、点雲のボクセル表現を使用し、スパース畳み込みでボクセルを処理する、単純で効果的な方法である。
単一の完全な畳み込みフィードフォワードパスを通じて、最小限のランタイムで大規模シーンを処理できる。
論文 参考訳(メタデータ) (2021-12-01T07:28:52Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。