論文の概要: Temporally smooth online action detection using cycle-consistent future
anticipation
- arxiv url: http://arxiv.org/abs/2104.08030v1
- Date: Fri, 16 Apr 2021 11:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:20:33.375818
- Title: Temporally smooth online action detection using cycle-consistent future
anticipation
- Title(参考訳): 周期整合予測を用いた時間的平滑なオンライン行動検出
- Authors: Young Hwi Kim, Seonghyeon Nam, and Seon Joo Kim
- Abstract要約: 単純かつ効果的なRNNベースのネットワークであるFATSnetを用いて,オンライン行動検出のための新しいソリューションを提案する。
FATSnetは、教師なしの方法でトレーニングできる未来を予測するモジュールで構成されている。
また、非常に長いシーケンスでRNNベースのモデルを実行する際のパフォーマンス損失を軽減するソリューションも提案します。
- 参考スコア(独自算出の注目度): 26.150144140790943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many video understanding tasks work in the offline setting by assuming that
the input video is given from the start to the end. However, many real-world
problems require the online setting, making a decision immediately using only
the current and the past frames of videos such as in autonomous driving and
surveillance systems. In this paper, we present a novel solution for online
action detection by using a simple yet effective RNN-based networks called the
Future Anticipation and Temporally Smoothing network (FATSnet). The proposed
network consists of a module for anticipating the future that can be trained in
an unsupervised manner with the cycle-consistency loss, and another component
for aggregating the past and the future for temporally smooth frame-by-frame
predictions. We also propose a solution to relieve the performance loss when
running RNN-based models on very long sequences. Evaluations on TVSeries,
THUMOS14, and BBDB show that our method achieve the state-of-the-art
performances compared to the previous works on online action detection.
- Abstract(参考訳): 多くのビデオ理解タスクは、入力ビデオが開始から終了まで与えられると仮定してオフライン設定で動作する。
しかし、現実の多くの問題はオンライン設定を必要としており、自律運転や監視システムのようなビデオの現在のフレームと過去のフレームのみを即座に使用する。
本稿では,Funture Precipation and Temporally Smoothing Network (FATSnet) と呼ばれるシンプルなRNNベースのネットワークを用いて,オンライン行動検出の新しいソリューションを提案する。
提案するネットワークは,サイクル一貫性の喪失とともに教師なしでトレーニングできる未来を予測できるモジュールと,時間的にスムーズなフレーム・バイ・フレーム予測のために過去と未来を集約するコンポーネントから構成される。
また、非常に長いシーケンスでRNNベースのモデルを実行する際の性能損失を軽減する方法を提案する。
TVSeries, THUMOS14, BBDBによる評価の結果, 従来のオンライン行動検出法と比較して, 本手法が最先端の性能を達成することが示された。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Interference Cancellation GAN Framework for Dynamic Channels [74.22393885274728]
チャネルのあらゆる変更に適応できるオンライントレーニングフレームワークを導入します。
我々のフレームワークは、非常にダイナミックなチャネル上での最近のニューラルネットワークモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-08-17T02:01:18Z) - Unidirectional Video Denoising by Mimicking Backward Recurrent Modules
with Look-ahead Forward Ones [72.68740880786312]
双方向リカレントネットワーク (BiRNN) は、いくつかのビデオ復元作業において魅力的な性能を示した。
BiRNNは本質的にオフラインである。最後のフレームから現在のフレームへ伝播するために、後方リカレントモジュールを使用するからだ。
本稿では,一方向ビデオ復調のための前方および前方再帰モジュールからなる新しいリカレントネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T05:33:15Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Online Action Detection in Streaming Videos with Time Buffers [28.82710230196424]
ライブストリーミングビデオにおけるオンライン時間的行動検出の問題を定式化する。
オンライン行動検出タスクの標準的な設定は、新しいフレームがキャプチャされた後すぐに予測する必要がある。
遅延によって生じる小さなバッファタイムをモデルが利用できるような問題設定を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-06T20:43:50Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。