論文の概要: Towards Streaming Perception
- arxiv url: http://arxiv.org/abs/2005.10420v2
- Date: Tue, 25 Aug 2020 01:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:39:54.037877
- Title: Towards Streaming Perception
- Title(参考訳): ストリーミング知覚に向けて
- Authors: Mengtian Li, Yu-Xiong Wang, Deva Ramanan
- Abstract要約: 本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
- 参考スコア(独自算出の注目度): 70.68520310095155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied perception refers to the ability of an autonomous agent to perceive
its environment so that it can (re)act. The responsiveness of the agent is
largely governed by latency of its processing pipeline. While past work has
studied the algorithmic trade-off between latency and accuracy, there has not
been a clear metric to compare different methods along the Pareto optimal
latency-accuracy curve. We point out a discrepancy between standard offline
evaluation and real-time applications: by the time an algorithm finishes
processing a particular frame, the surrounding world has changed. To these
ends, we present an approach that coherently integrates latency and accuracy
into a single metric for real-time online perception, which we refer to as
"streaming accuracy". The key insight behind this metric is to jointly evaluate
the output of the entire perception stack at every time instant, forcing the
stack to consider the amount of streaming data that should be ignored while
computation is occurring. More broadly, building upon this metric, we introduce
a meta-benchmark that systematically converts any single-frame task into a
streaming perception task. We focus on the illustrative tasks of object
detection and instance segmentation in urban video streams, and contribute a
novel dataset with high-quality and temporally-dense annotations. Our proposed
solutions and their empirical analysis demonstrate a number of surprising
conclusions: (1) there exists an optimal "sweet spot" that maximizes streaming
accuracy along the Pareto optimal latency-accuracy curve, (2) asynchronous
tracking and future forecasting naturally emerge as internal representations
that enable streaming perception, and (3) dynamic scheduling can be used to
overcome temporal aliasing, yielding the paradoxical result that latency is
sometimes minimized by sitting idle and "doing nothing".
- Abstract(参考訳): 身体的知覚(embodied perception)とは、自律的なエージェントがその環境を知覚して行動できる能力のことである。
エージェントの応答性は、主に処理パイプラインの遅延によって制御される。
過去の研究はレイテンシと精度の間のアルゴリズム上のトレードオフを研究してきたが、Paretoの最適遅延精度曲線に沿って異なる手法を比較するための明確な基準は存在しなかった。
アルゴリズムが特定のフレームの処理を完了すると、周囲の世界は変化した。
そこで本稿では,リアルタイムオンライン認識のための単一の指標として,レイテンシと精度を協調的に統合する手法を提案する。
このメトリックの背後にある重要な洞察は、瞬時に認識スタック全体の出力を共同で評価することであり、計算中に無視されるべきストリーミングデータの量をスタックが考慮せざるを得ない。
より広範に、この指標に基づいて、任意の単一フレームタスクをストリーミング知覚タスクに体系的に変換するメタベンチマークを導入する。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
Our proposed solutions and their empirical analysis demonstrate a number of surprising conclusions: (1) there exists an optimal "sweet spot" that maximizes streaming accuracy along the Pareto optimal latency-accuracy curve, (2) asynchronous tracking and future forecasting naturally emerge as internal representations that enable streaming perception, and (3) dynamic scheduling can be used to overcome temporal aliasing, yielding the paradoxical result that latency is sometimes minimized by sitting idle and "doing nothing".
関連論文リスト
- Real-time Stereo-based 3D Object Detection for Streaming Perception [12.52037626475608]
本稿では,ストリーミング知覚のための3Dオブジェクト検出フレームワークStreamDSGNを紹介する。
StreamDSGNは、過去の情報を利用して、次の瞬間にオブジェクトの3D特性を直接予測する。
強いベースラインと比較して、StreamDSGNはストリーミング平均精度を最大4.33%向上させる。
論文 参考訳(メタデータ) (2024-10-16T09:23:02Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - Context-Aware Streaming Perception in Dynamic Environments [25.029862642968457]
自動走行のようなリアルタイム視覚アプリケーションはストリーミング設定で動作し、推論の開始と終了の間に真実が変わる。
環境コンテキスト毎にストリーミング精度を最大化することを提案する。
提案手法は従来の静的アプローチよりも7.4%向上する。
論文 参考訳(メタデータ) (2022-08-16T00:33:04Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Selective Network Linearization for Efficient Private Inference [49.937470642033155]
本稿では,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。
その結果、現在の技術よりも4.25%$の精度(so-ReLUは50K)、または2.2times$のレイテンシ(so-accuracyは70%)が低いことがわかった。
論文 参考訳(メタデータ) (2022-02-04T19:00:24Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。