論文の概要: Two-Stream AMTnet for Action Detection
- arxiv url: http://arxiv.org/abs/2004.01494v1
- Date: Fri, 3 Apr 2020 12:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:36:19.590286
- Title: Two-Stream AMTnet for Action Detection
- Title(参考訳): 動作検出のための2ストリームAMTnet
- Authors: Suman Saha, Gurkirt Singh and Fabio Cuzzolin
- Abstract要約: 本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
- 参考スコア(独自算出の注目度): 12.581710073789848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Two-Stream AMTnet, which leverages recent advances
in video-based action representation[1] and incremental action tube
generation[2]. Majority of the present action detectors follow a frame-based
representation, a late-fusion followed by an offline action tube building
steps. These are sub-optimal as: frame-based features barely encode the
temporal relations; late-fusion restricts the network to learn robust
spatiotemporal features; and finally, an offline action tube generation is not
suitable for many real-world problems such as autonomous driving, human-robot
interaction to name a few. The key contributions of this work are: (1)
combining AMTnet's 3D proposal architecture with an online action tube
generation technique which allows the model to learn stronger temporal features
needed for accurate action detection and facilitates running inference online;
(2) an efficient fusion technique allowing the deep network to learn strong
spatiotemporal action representations. This is achieved by augmenting the
previous Action Micro-Tube (AMTnet) action detection framework in three
distinct ways: by adding a parallel motion stIn this paper, we propose a new
deep neural network architecture for online action detection, termed ream to
the original appearance one in AMTnet; (2) in opposition to state-of-the-art
action detectors which train appearance and motion streams separately, and use
a test time late fusion scheme to fuse RGB and flow cues, by jointly training
both streams in an end-to-end fashion and merging RGB and optical flow features
at training time; (3) by introducing an online action tube generation algorithm
which works at video-level, and in real-time (when exploiting only appearance
features). Two-Stream AMTnet exhibits superior action detection performance
over state-of-the-art approaches on the standard action detection benchmarks.
- Abstract(参考訳): 本稿では,ビデオベースアクション表現[1]とインクリメンタルアクションチューブ生成[2]の最近の進歩を生かしたTwo-Stream AMTnetを提案する。
現在のアクション検出器の大多数はフレームベースの表現、後期融合、オフラインアクションチューブビルディングステップに従っている。
フレームベースの機能は、時間的関係をほとんどエンコードしない;レイトフュージョンは、ネットワークが堅牢な時空間的特徴を学ぶことを制限する;最後に、オフラインのアクションチューブ生成は、自動運転や人間とロボットの対話など、多くの現実世界の問題に適していない。
この研究の主な貢献は、(1)amtnetの3dプロポーザルアーキテクチャとオンラインアクションチューブ生成手法を組み合わせることで、モデルが正確なアクション検出に必要な強い時間的特徴を学習し、オンライン上での推論を容易にすること、(2)ディープネットワークが強い時空間的アクション表現を学習できる効率的な融合技術である。
This is achieved by augmenting the previous Action Micro-Tube (AMTnet) action detection framework in three distinct ways: by adding a parallel motion stIn this paper, we propose a new deep neural network architecture for online action detection, termed ream to the original appearance one in AMTnet; (2) in opposition to state-of-the-art action detectors which train appearance and motion streams separately, and use a test time late fusion scheme to fuse RGB and flow cues, by jointly training both streams in an end-to-end fashion and merging RGB and optical flow features at training time; (3) by introducing an online action tube generation algorithm which works at video-level, and in real-time (when exploiting only appearance features).
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
関連論文リスト
- STMixer: A One-Stage Sparse Action Detector [43.62159663367588]
よりフレキシブルな1段アクション検出器のための2つのコア設計を提案する。
まず、クエリベースの適応的特徴サンプリングモジュールを分離し、ビデオ時間領域全体から特徴群をマイニングする柔軟性を備えた検出器を実現する。
第2に,より優れた特徴復号化のために,空間次元と時間次元の混合に動的に参画する分離された特徴混合モジュールを考案する。
論文 参考訳(メタデータ) (2024-04-15T14:52:02Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection [23.880673582575856]
自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。
現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。
本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2021-04-16T16:05:34Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Online Spatiotemporal Action Detection and Prediction via Causal
Representations [1.9798034349981157]
まず、従来のオフラインアクション検出パイプラインをオンラインアクションチューブ検出システムに変換することから始めます。
本稿では,既存の動作管を回帰的に未来へ拡張することで,そのような検出手法の今後の予測機能について検討する。
その後、オンライン/時間表現は、様々なタスクにおけるオフライン3次元畳み込みニューラルネットワーク(CNN)と同様のパフォーマンスが得られることを確かめる。
論文 参考訳(メタデータ) (2020-08-31T17:28:51Z) - WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos [124.72839555467944]
ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-06-05T23:08:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。