論文の概要: Information Elevation Network for Fast Online Action Detection
- arxiv url: http://arxiv.org/abs/2109.13572v1
- Date: Tue, 28 Sep 2021 09:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:44:51.780451
- Title: Information Elevation Network for Fast Online Action Detection
- Title(参考訳): 高速オンライン行動検出のための情報エレベーションネットワーク
- Authors: Sunah Min and Jinyoung Moon
- Abstract要約: オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。
我々は,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を導入する。
我々は、情報高揚ネットワーク(IEN)と呼ばれるIEUを用いて、効率的で効果的なOADネットワークを設計する。
- 参考スコア(独自算出の注目度): 4.203274985072923
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online action detection (OAD) is a task that receives video segments within a
streaming video as inputs and identifies ongoing actions within them. It is
important to retain past information associated with a current action. However,
long short-term memory (LSTM), a popular recurrent unit for modeling temporal
information from videos, accumulates past information from the previous hidden
and cell states and the extracted visual features at each timestep without
considering the relationships between the past and current information.
Consequently, the forget gate of the original LSTM can lose the accumulated
information relevant to the current action because it determines which
information to forget without considering the current action. We introduce a
novel information elevation unit (IEU) that lifts up and accumulate the past
information relevant to the current action in order to model the past
information that is especially relevant to the current action. To the best of
our knowledge, our IEN is the first attempt that considers the computational
overhead for the practical use of OAD. Through ablation studies, we design an
efficient and effective OAD network using IEUs, called an information elevation
network (IEN). Our IEN uses visual features extracted by a fast action
recognition network taking only RGB frames because extracting optical flows
requires heavy computation overhead. On two OAD benchmark datasets, THUMOS-14
and TVSeries, our IEN outperforms state-of-the-art OAD methods using only RGB
frames. Furthermore, on the THUMOS-14 dataset, our IEN outperforms the
state-of-the-art OAD methods using two-stream features based on RGB frames and
optical flows.
- Abstract(参考訳): オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。
現在の行動に関連する過去の情報を保持することが重要である。
しかし、ビデオから時間情報をモデリングする一般的なリカレントユニットである長短期記憶(LSTM)は、過去と現在の情報の関係を考慮せずに、過去の隠蔽状態から過去の情報と抽出された視覚的特徴を各ステップに蓄積する。
これにより、元のLSTMの忘れ門は、現在の動作を考慮せずに忘れるべき情報を決定するため、現在の動作に関連する蓄積情報を失うことができる。
本稿では,現在の行動に特に関係のある過去の情報をモデル化するために,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を紹介する。
我々の知る限りでは、OADの実用化に向けた計算オーバーヘッドを考慮に入れた最初の試みである。
アブレーション研究を通じて、情報高揚ネットワーク(IEN)と呼ばれる、IEUを用いた効率的なOADネットワークを設計する。
本手法では,rgbフレームのみを取り込む高速行動認識ネットワークによって抽出された視覚特徴を用いる。
THUMOS-14とTVSeriesの2つのOADベンチマークデータセットでは、我々のIENはRGBフレームのみを使用して最先端のOAD手法より優れています。
さらに、THUMOS-14データセットでは、RGBフレームと光フローに基づく2ストリーム特徴を用いた最先端のOAD手法よりも優れています。
関連論文リスト
- On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Learning to Discriminate Information for Online Action Detection:
Analysis and Application [32.4410197207228]
本稿では,現在進行中の行動と他者の情報関連性を明確に識別する情報識別ユニット(IDU)を提案する。
また,行動予測のための情報統合ユニット(IIU)を新たに提案する。
我々のIIUは、疑似アクションラベルやRGBフレームとしてIDUからの出力を利用して、観察されたアクションの豊富な特徴を効果的に学習する。
論文 参考訳(メタデータ) (2021-09-08T01:51:51Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。