論文の概要: Real-time Stereo-based 3D Object Detection for Streaming Perception
- arxiv url: http://arxiv.org/abs/2410.12394v1
- Date: Wed, 16 Oct 2024 09:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:13.659348
- Title: Real-time Stereo-based 3D Object Detection for Streaming Perception
- Title(参考訳): ストリーム知覚のためのリアルタイムステレオベース3次元物体検出
- Authors: Changcai Li, Zonghua Gu, Gang Chen, Libo Huang, Wei Zhang, Huihui Zhou,
- Abstract要約: 本稿では,ストリーミング知覚のための3Dオブジェクト検出フレームワークStreamDSGNを紹介する。
StreamDSGNは、過去の情報を利用して、次の瞬間にオブジェクトの3D特性を直接予測する。
強いベースラインと比較して、StreamDSGNはストリーミング平均精度を最大4.33%向上させる。
- 参考スコア(独自算出の注目度): 12.52037626475608
- License:
- Abstract: The ability to promptly respond to environmental changes is crucial for the perception system of autonomous driving. Recently, a new task called streaming perception was proposed. It jointly evaluate the latency and accuracy into a single metric for video online perception. In this work, we introduce StreamDSGN, the first real-time stereo-based 3D object detection framework designed for streaming perception. StreamDSGN is an end-to-end framework that directly predicts the 3D properties of objects in the next moment by leveraging historical information, thereby alleviating the accuracy degradation of streaming perception. Further, StreamDSGN applies three strategies to enhance the perception accuracy: (1) A feature-flow-based fusion method, which generates a pseudo-next feature at the current moment to address the misalignment issue between feature and ground truth. (2) An extra regression loss for explicit supervision of object motion consistency in consecutive frames. (3) A large kernel backbone with a large receptive field for effectively capturing long-range spatial contextual features caused by changes in object positions. Experiments on the KITTI Tracking dataset show that, compared with the strong baseline, StreamDSGN significantly improves the streaming average precision by up to 4.33%. Our code is available at https://github.com/weiyangdaren/streamDSGN-pytorch.
- Abstract(参考訳): 環境変化に迅速に対応できる能力は、自動運転の認識システムにとって不可欠である。
近年,ストリーミング認識という新たな課題が提案されている。
レイテンシと精度をビデオオンライン知覚のための単一の指標に共同で評価する。
本研究では,ストリーミング認識用に設計された,初めてのリアルタイムステレオベース3Dオブジェクト検出フレームワークであるStreamDSGNを紹介する。
StreamDSGNは、過去の情報を活用することによって、オブジェクトの3D特性を直接予測し、ストリーミング知覚の精度低下を緩和するエンドツーエンドフレームワークである。
さらに、StreamDSGNは、(1)特徴フローに基づく融合法により、現在ある瞬間に擬似次なる特徴を生成し、特徴と基礎の真理の相違問題に対処する。
2) 連続フレームにおける物体の動きの整合性の明示的監視のための余剰回帰損失
(3) 物体位置の変化によって引き起こされる長距離空間的特徴を効果的に捉えるための受容野が大きい大きなカーネルバックボーン。
KITTI追跡データセットの実験では、強力なベースラインと比較して、StreamDSGNはストリーミング平均精度を最大4.33%改善している。
私たちのコードはhttps://github.com/weiyangdaren/streamDSGN-pytorch.comで公開されています。
関連論文リスト
- Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images [15.51093009875854]
本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T14:22:56Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - 3D Object Detection and Tracking Based on Streaming Data [9.085584050311178]
我々は、オンに基づいて3次元物体検出のためのデュアルウェイネットワークを構築し、時間情報で導かれる動きに基づくアルゴリズムにより、非キーフレームに予測を伝達する。
我々のフレームワークはフレーム・バイ・フレーム・パラダイムよりも大幅に改善されているだけでなく、KITTI Object Tracking Benchmarkで競合する結果が得られることが証明されている。
論文 参考訳(メタデータ) (2020-09-14T03:15:41Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Streaming Object Detection for 3-D Point Clouds [29.465873948076766]
LiDARは、多くの既存の知覚システムに通知する顕著な感覚モダリティを提供する。
ポイントクラウドデータに基づく知覚システムのレイテンシは、完全なローテーションスキャンの時間量によって支配される。
我々は、LiDARデータをそのネイティブストリーミング定式化で操作することで、自動運転オブジェクト検出にいくつかの利点があることを示す。
論文 参考訳(メタデータ) (2020-05-04T21:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。