論文の概要: Information Elevation Network for Fast Online Action Detection
- arxiv url: http://arxiv.org/abs/2109.13572v1
- Date: Tue, 28 Sep 2021 09:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:44:51.780451
- Title: Information Elevation Network for Fast Online Action Detection
- Title(参考訳): 高速オンライン行動検出のための情報エレベーションネットワーク
- Authors: Sunah Min and Jinyoung Moon
- Abstract要約: オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。
我々は,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を導入する。
我々は、情報高揚ネットワーク(IEN)と呼ばれるIEUを用いて、効率的で効果的なOADネットワークを設計する。
- 参考スコア(独自算出の注目度): 4.203274985072923
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online action detection (OAD) is a task that receives video segments within a
streaming video as inputs and identifies ongoing actions within them. It is
important to retain past information associated with a current action. However,
long short-term memory (LSTM), a popular recurrent unit for modeling temporal
information from videos, accumulates past information from the previous hidden
and cell states and the extracted visual features at each timestep without
considering the relationships between the past and current information.
Consequently, the forget gate of the original LSTM can lose the accumulated
information relevant to the current action because it determines which
information to forget without considering the current action. We introduce a
novel information elevation unit (IEU) that lifts up and accumulate the past
information relevant to the current action in order to model the past
information that is especially relevant to the current action. To the best of
our knowledge, our IEN is the first attempt that considers the computational
overhead for the practical use of OAD. Through ablation studies, we design an
efficient and effective OAD network using IEUs, called an information elevation
network (IEN). Our IEN uses visual features extracted by a fast action
recognition network taking only RGB frames because extracting optical flows
requires heavy computation overhead. On two OAD benchmark datasets, THUMOS-14
and TVSeries, our IEN outperforms state-of-the-art OAD methods using only RGB
frames. Furthermore, on the THUMOS-14 dataset, our IEN outperforms the
state-of-the-art OAD methods using two-stream features based on RGB frames and
optical flows.
- Abstract(参考訳): オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。
現在の行動に関連する過去の情報を保持することが重要である。
しかし、ビデオから時間情報をモデリングする一般的なリカレントユニットである長短期記憶(LSTM)は、過去と現在の情報の関係を考慮せずに、過去の隠蔽状態から過去の情報と抽出された視覚的特徴を各ステップに蓄積する。
これにより、元のLSTMの忘れ門は、現在の動作を考慮せずに忘れるべき情報を決定するため、現在の動作に関連する蓄積情報を失うことができる。
本稿では,現在の行動に特に関係のある過去の情報をモデル化するために,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を紹介する。
我々の知る限りでは、OADの実用化に向けた計算オーバーヘッドを考慮に入れた最初の試みである。
アブレーション研究を通じて、情報高揚ネットワーク(IEN)と呼ばれる、IEUを用いた効率的なOADネットワークを設計する。
本手法では,rgbフレームのみを取り込む高速行動認識ネットワークによって抽出された視覚特徴を用いる。
THUMOS-14とTVSeriesの2つのOADベンチマークデータセットでは、我々のIENはRGBフレームのみを使用して最先端のOAD手法より優れています。
さらに、THUMOS-14データセットでは、RGBフレームと光フローに基づく2ストリーム特徴を用いた最先端のOAD手法よりも優れています。
関連論文リスト
- ARN-LSTM: A Multi-Stream Attention-Based Model for Action Recognition with Temporal Dynamics [6.6713480895907855]
ARN-LSTMは、アクションシーケンスにおける空間的動きと時間的ダイナミクスを同時にキャプチャする課題に対処するために設計された、新しい行動認識モデルである。
提案モデルでは, 複数ストリーム融合アーキテクチャを用いて, 関節, 動き, 時間情報を統合する。
論文 参考訳(メタデータ) (2024-11-04T03:29:51Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Learning to Discriminate Information for Online Action Detection:
Analysis and Application [32.4410197207228]
本稿では,現在進行中の行動と他者の情報関連性を明確に識別する情報識別ユニット(IDU)を提案する。
また,行動予測のための情報統合ユニット(IIU)を新たに提案する。
我々のIIUは、疑似アクションラベルやRGBフレームとしてIDUからの出力を利用して、観察されたアクションの豊富な特徴を効果的に学習する。
論文 参考訳(メタデータ) (2021-09-08T01:51:51Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。