論文の概要: Online Action Detection in Streaming Videos with Time Buffers
- arxiv url: http://arxiv.org/abs/2010.03016v1
- Date: Tue, 6 Oct 2020 20:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:31:39.893371
- Title: Online Action Detection in Streaming Videos with Time Buffers
- Title(参考訳): 時間バッファ付きストリーミングビデオにおけるオンライン行動検出
- Authors: Bowen Zhang, Hao Chen, Meng Wang, Yuanjun Xiong
- Abstract要約: ライブストリーミングビデオにおけるオンライン時間的行動検出の問題を定式化する。
オンライン行動検出タスクの標準的な設定は、新しいフレームがキャプチャされた後すぐに予測する必要がある。
遅延によって生じる小さなバッファタイムをモデルが利用できるような問題設定を採用することを提案する。
- 参考スコア(独自算出の注目度): 28.82710230196424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formulate the problem of online temporal action detection in live
streaming videos, acknowledging one important property of live streaming videos
that there is normally a broadcast delay between the latest captured frame and
the actual frame viewed by the audience. The standard setting of the online
action detection task requires immediate prediction after a new frame is
captured. We illustrate that its lack of consideration of the delay is imposing
unnecessary constraints on the models and thus not suitable for this problem.
We propose to adopt the problem setting that allows models to make use of the
small `buffer time' incurred by the delay in live streaming videos. We design
an action start and end detection framework for this online with buffer setting
with two major components: flattened I3D and window-based suppression.
Experiments on three standard temporal action detection benchmarks under the
proposed setting demonstrate the effectiveness of the proposed framework. We
show that by having a suitable problem setting for this problem with
wide-applications, we can achieve much better detection accuracy than
off-the-shelf online action detection models.
- Abstract(参考訳): ライブストリーミングビデオにおけるオンラインの時間的動作検出の問題点を定式化し,ライブストリーミングビデオの1つの重要な特性として,最新のキャプチャーフレームと視聴者が見る実際のフレームとの間には,通常放送遅延があることを認めた。
オンラインアクション検出タスクの標準設定は、新しいフレームがキャプチャされた直後の即時予測を必要とする。
遅延に対する考慮の欠如は,不必要な制約をモデルに課すことであり,この問題には適さないことを示す。
本稿では,ライブストリーミング動画の遅延によって生じる小さな「バッファ時間」をモデルが利用できるような問題設定を採用することを提案する。
我々は2つの主要なコンポーネント、フラット化i3dとウィンドウベースの抑制を備えた、オンラインのアクション開始・終了検出フレームワークを設計した。
提案手法に基づく3つの標準時間行動検出ベンチマーク実験により,提案手法の有効性を実証した。
広義のアプリケーションでこの問題に対して適切な問題設定を行うことで,既成のオンライン行動検出モデルよりもはるかに優れた検出精度が得られることを示す。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Look at Adjacent Frames: Video Anomaly Detection without Offline
Training [21.334952965297667]
オフラインでモデルをトレーニングすることなく,ビデオ中の異常事象を検出する手法を提案する。
具体的には,画像フレーム,ピクセル・バイ・ピクセルを周波数情報から再構成するためにオンラインで最適化されたランダムな多層パーセプトロンをベースとした。
インクリメンタルラーナは、各フレームを観察した後に多層パーセプトロンのパラメータを更新するために使用され、ビデオストリームに沿って異常なイベントを検出することができる。
論文 参考訳(メタデータ) (2022-07-27T21:18:58Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Temporally smooth online action detection using cycle-consistent future
anticipation [26.150144140790943]
単純かつ効果的なRNNベースのネットワークであるFATSnetを用いて,オンライン行動検出のための新しいソリューションを提案する。
FATSnetは、教師なしの方法でトレーニングできる未来を予測するモジュールで構成されている。
また、非常に長いシーケンスでRNNベースのモデルを実行する際のパフォーマンス損失を軽減するソリューションも提案します。
論文 参考訳(メタデータ) (2021-04-16T11:00:19Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。