論文の概要: CorrDiff: Adaptive Delay-aware Detector with Temporal Cue Inputs for Real-time Object Detection
- arxiv url: http://arxiv.org/abs/2501.05132v1
- Date: Thu, 09 Jan 2025 10:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:08.924570
- Title: CorrDiff: Adaptive Delay-aware Detector with Temporal Cue Inputs for Real-time Object Detection
- Title(参考訳): CorrDiff:リアルタイム物体検出のための時間キュー入力付き適応遅延認識検出器
- Authors: Xiang Zhang, Chenchen Fu, Yufei Cui, Lan Yi, Yuyang Sun, Weiwei Wu, Xue Liu,
- Abstract要約: CorrDiffは、リアルタイム検出システムの遅延問題に対処するために設計された。
複数の将来のフレームに対するオブジェクトの位置を予測するために、実行時推定の時間的キューを利用することができる。
あらゆる種類のデバイスにおいて、厳格なリアルタイム処理要件を満たす。
- 参考スコア(独自算出の注目度): 11.714072240331518
- License:
- Abstract: Real-time object detection takes an essential part in the decision-making process of numerous real-world applications, including collision avoidance and path planning in autonomous driving systems. This paper presents a novel real-time streaming perception method named CorrDiff, designed to tackle the challenge of delays in real-time detection systems. The main contribution of CorrDiff lies in its adaptive delay-aware detector, which is able to utilize runtime-estimated temporal cues to predict objects' locations for multiple future frames, and selectively produce predictions that matches real-world time, effectively compensating for any communication and computational delays. The proposed model outperforms current state-of-the-art methods by leveraging motion estimation and feature enhancement, both for 1) single-frame detection for the current frame or the next frame, in terms of the metric mAP, and 2) the prediction for (multiple) future frame(s), in terms of the metric sAP (The sAP metric is to evaluate object detection algorithms in streaming scenarios, factoring in both latency and accuracy). It demonstrates robust performance across a range of devices, from powerful Tesla V100 to modest RTX 2080Ti, achieving the highest level of perceptual accuracy on all platforms. Unlike most state-of-the-art methods that struggle to complete computation within a single frame on less powerful devices, CorrDiff meets the stringent real-time processing requirements on all kinds of devices. The experimental results emphasize the system's adaptability and its potential to significantly improve the safety and reliability for many real-world systems, such as autonomous driving. Our code is completely open-sourced and is available at https://anonymous.4open.science/r/CorrDiff.
- Abstract(参考訳): リアルタイム物体検出は、自律運転システムにおける衝突回避や経路計画など、多数の実世界のアプリケーションの意思決定プロセスにおいて重要な役割を果たす。
本稿では,リアルタイム検出システムにおける遅延問題に対処するために,CorrDiffという新しいリアルタイムストリーミング認識手法を提案する。
CorrDiffの主な貢献は、その適応遅延認識検出器(adaptive delay-aware detector)である。これは、実行時推定の時間的キューを利用して、複数の将来のフレームのオブジェクトの位置を予測し、現実世界の時間と一致する予測を選択的に生成し、通信や計算遅延を効果的に補償することができる。
提案手法は,動作推定と特徴強調を両立させることにより,現在最先端の手法より優れる。
1)メートル法mAPの観点で、現在のフレーム又は次のフレームの単フレーム検出
2) 距離 sAP(sAP メトリックは,ストリーミングシナリオにおけるオブジェクト検出アルゴリズムの評価であり,遅延と精度の両面での因子付けを行う。
強力なTesla V100から控えめなRTX 2080Tiまで、さまざまなデバイスで堅牢なパフォーマンスを示しており、すべてのプラットフォームで最高の知覚精度を実現している。
パワフルでないデバイス上で単一のフレーム内で計算を完了するのに苦労する、最先端のほとんどの方法とは異なり、CorrDiffはあらゆる種類のデバイスにおいて、厳格なリアルタイム処理要件を満たしている。
実験の結果は、自律運転のような現実世界の多くのシステムの安全性と信頼性を著しく向上させるシステムの適応性とその可能性を強調した。
私たちのコードは、完全にオープンソースで、https://anonymous.4open.science/r/CorrDiff.comで利用可能です。
関連論文リスト
- Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文 参考訳(メタデータ) (2025-02-11T09:54:09Z) - Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。
競合モデルパラメータによる処理を150%高速化する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Transtreaming: Adaptive Delay-aware Transformer for Real-time Streaming Perception [18.403242474776764]
本研究は,動的計算遅延を伴うリアルタイム物体検出の課題に対処する,革新的なリアルタイムストリーミング認識手法であるTranstreamingを提案する。
提案モデルは,単一フレーム検出シナリオにおいても,既存の最先端手法よりも優れている。
Transtreamingは、あらゆる種類のデバイスにおける厳格なリアルタイム処理要件を満たす。
論文 参考訳(メタデータ) (2024-09-10T15:26:38Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Leveraging the Edge and Cloud for V2X-Based Real-Time Object Detection
in Autonomous Driving [0.0]
環境認識は自動運転の重要な要素である。
本稿では,自動運転車のリアルタイム認識における検出品質と遅延の最良のトレードオフについて検討する。
我々は,局所的な検出性能を向上しつつ,適切な圧縮を伴うモデルをクラウド上でリアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2023-08-09T21:39:10Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - RMOPP: Robust Multi-Objective Post-Processing for Effective Object
Detection [0.0]
RMOPPは統計的に駆動された後処理アルゴリズムであり、精度とリコールの同時最適化を可能にする。
MS-COCOデータセットを用いて、YOLOv2上で魅力的なテストケースを提供する。
論文 参考訳(メタデータ) (2021-02-09T00:02:38Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。