論文の概要: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2308.09616v2
- Date: Sun, 17 Dec 2023 14:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:19:28.789834
- Title: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
- Title(参考訳): Far3D:3Dオブジェクト検出のためのHorizonの拡張
- Authors: Xiaohui Jiang, Shuailin Li, Yingfei Liu, Shihao Wang, Fan Jia, Tiancai
Wang, Lijin Han, Xiangyu Zhang
- Abstract要約: 本稿では、Far3Dと呼ばれるスパースクエリベースの新しいフレームワークを提案する。
高品質な2Dオブジェクトの事前利用により、3Dグローバルクエリを補完する3D適応クエリを生成する。
課題であるArgoverse 2データセット上でのSoTA性能を実証し,150mの範囲をカバーした。
- 参考スコア(独自算出の注目度): 15.045811199986924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently 3D object detection from surround-view images has made notable
advancements with its low deployment cost. However, most works have primarily
focused on close perception range while leaving long-range detection less
explored. Expanding existing methods directly to cover long distances poses
challenges such as heavy computation costs and unstable convergence. To address
these limitations, this paper proposes a novel sparse query-based framework,
dubbed Far3D. By utilizing high-quality 2D object priors, we generate 3D
adaptive queries that complement the 3D global queries. To efficiently capture
discriminative features across different views and scales for long-range
objects, we introduce a perspective-aware aggregation module. Additionally, we
propose a range-modulated 3D denoising approach to address query error
propagation and mitigate convergence issues in long-range tasks. Significantly,
Far3D demonstrates SoTA performance on the challenging Argoverse 2 dataset,
covering a wide range of 150 meters, surpassing several LiDAR-based approaches.
Meanwhile, Far3D exhibits superior performance compared to previous methods on
the nuScenes dataset. The code is available at
https://github.com/megvii-research/Far3D.
- Abstract(参考訳): 近年,サラウンドビュー画像からの3次元物体検出は,低コストで顕著な進歩を遂げている。
しかし、ほとんどの作品は主に近視範囲に焦点を合わせているが、長距離検出の探求は少ない。
距離を直接カバーするために既存の手法を拡張することは、重い計算コストや不安定な収束といった課題を引き起こす。
これらの制限に対処するため,本稿では,far3dと呼ばれる新しいスパースクエリベースのフレームワークを提案する。
高品質な2Dオブジェクトの事前利用により、3Dグローバルクエリを補完する3D適応クエリを生成する。
長距離オブジェクトに対する様々なビューやスケールの識別的特徴を効率的に捉えるために,視点認識集約モジュールを導入する。
さらに,クエリエラーの伝搬に対処し,長距離タスクにおける収束問題を緩和するレンジ変調型3D復調手法を提案する。
Far3Dは、挑戦的なArgoverse 2データセットでSoTAのパフォーマンスを示し、150mの範囲をカバーし、LiDARベースのアプローチを数回越えている。
一方、Far3DはnuScenesデータセットの以前の方法よりも優れたパフォーマンスを示している。
コードはhttps://github.com/megvii-research/far3dで入手できる。
関連論文リスト
- What Matters in Range View 3D Object Detection [15.147558647138629]
ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。
過去のレンジビュー文献に提案されている複数の手法を使わずに、レンジビュー3次元オブジェクト検出モデル間の最先端を実現する。
論文 参考訳(メタデータ) (2024-07-23T18:42:37Z) - SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Far3Det: Towards Far-Field 3D Detection [67.38417186733487]
我々は、観測者から一定の距離を超える物体の遠距離3次元検出(Far3Det)の課題に焦点を当てる。
Far3Detは高速道路で動く自動運転車(AV)にとって特に重要である。
我々は,nuScenesデータセットからよく注釈付きシーンを抽出し,十分に注釈付き遠距離フィールド検証セットを導出する手法を開発した。
Far3Detの評価プロトコルを提案し,Far3Detの様々な3次元検出手法を提案する。
論文 参考訳(メタデータ) (2022-11-25T02:07:57Z) - Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。
近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。
そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-08-31T09:38:05Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。