論文の概要: DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.17144v2
- Date: Wed, 5 Apr 2023 00:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:02:15.413882
- Title: DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving
- Title(参考訳): DAMO-StreamNet: 自動運転におけるストリーミング知覚の最適化
- Authors: Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Wangmeng Xiang, Binghui Chen,
Bin Luo, Yifeng Geng, Xuansong Xie
- Abstract要約: 本稿では,リアルタイムストリーミング知覚のためのフレームワークであるDAMO-StreamNetを提案する。
実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。
DAMO-StreamNetは、ドローンやロボットなど、さまざまな自律システムに適用でき、リアルタイム知覚の道を開くことができる。
- 参考スコア(独自算出の注目度): 27.14089002387224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time perception, or streaming perception, is a crucial aspect of
autonomous driving that has yet to be thoroughly explored in existing research.
To address this gap, we present DAMO-StreamNet, an optimized framework that
combines recent advances from the YOLO series with a comprehensive analysis of
spatial and temporal perception mechanisms, delivering a cutting-edge solution.
The key innovations of DAMO-StreamNet are: (1) A robust neck structure
incorporating deformable convolution, enhancing the receptive field and feature
alignment capabilities. (2) A dual-branch structure that integrates short-path
semantic features and long-path temporal features, improving motion state
prediction accuracy. (3) Logits-level distillation for efficient optimization,
aligning the logits of teacher and student networks in semantic space. (4) A
real-time forecasting mechanism that updates support frame features with the
current frame, ensuring seamless streaming perception during inference. Our
experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art
methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200,
1920)) sAP without using extra data. This work not only sets a new benchmark
for real-time perception but also provides valuable insights for future
research. Additionally, DAMO-StreamNet can be applied to various autonomous
systems, such as drones and robots, paving the way for real-time perception.
The code is available at https://github.com/zhiqic/DAMO-StreamNet.
- Abstract(参考訳): リアルタイムの知覚(またはストリーミングの知覚)は、既存の研究ではまだ十分に研究されていない自動運転の重要な側面である。
このギャップに対処するため,我々は,yoloシリーズの最近の進歩と空間的および時間的知覚機構の包括的解析を組み合わせた最適化フレームワークであるdamo-streamnetを提案する。
damo-streamnetの主な革新は、(1)変形可能な畳み込みを組み込んだロバストなネック構造、受容野の強化、機能アライメント能力である。
2)短経路意味的特徴と長経路時間的特徴を統合し,動作状態予測精度を向上させる二重分岐構造。
3) 効率的な最適化のためのロジットレベル蒸留法, 意味空間における教師・学生ネットワークのロジットの調整
(4) 現在のフレームでフレーム機能を更新し, 推論中にシームレスなストリーミング知覚を確保するリアルタイム予測機構。
実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。
この研究は、リアルタイム認識のための新しいベンチマークを設定するだけでなく、将来の研究に有用な洞察を提供する。
さらに、DAMO-StreamNetは、ドローンやロボットなど、さまざまな自律システムに適用でき、リアルタイム知覚への道を開くことができる。
コードはhttps://github.com/zhiqic/damo-streamnetで入手できる。
関連論文リスト
- Real-time Stereo-based 3D Object Detection for Streaming Perception [12.52037626475608]
本稿では,ストリーミング知覚のための3Dオブジェクト検出フレームワークStreamDSGNを紹介する。
StreamDSGNは、過去の情報を利用して、次の瞬間にオブジェクトの3D特性を直接予測する。
強いベースラインと比較して、StreamDSGNはストリーミング平均精度を最大4.33%向上させる。
論文 参考訳(メタデータ) (2024-10-16T09:23:02Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Are We Ready for Vision-Centric Driving Streaming Perception? The ASAP
Benchmark [23.872360763782037]
ASAPは、自律運転における視覚中心の知覚のオンラインパフォーマンスを評価する最初のベンチマークである。
12Hzの原画像の高フレームレートラベルを生成するためのアノテーション拡張パイプラインを提案する。
ASAPベンチマークでは、モデルランクが異なる制約の下で変化することを示す総合的な実験結果が示されている。
論文 参考訳(メタデータ) (2022-12-17T16:32:15Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Real-time Streaming Perception System for Autonomous Driving [2.6058660721533187]
本稿では,ストリーミング知覚チャレンジの第2位であるリアルタイム蒸気知覚システムについて述べる。
絶対的なパフォーマンスに重点を置いている従来のオブジェクト検出の課題とは異なり、ストリーミング認識タスクは精度とレイテンシのバランスを取る必要がある。
Argoverse-HDテストセットでは,必要なハードウェアで33.2ストリーミングAP(オーガナイザが検証した34.6ストリーミングAP)を実現する。
論文 参考訳(メタデータ) (2021-07-30T01:32:44Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。