論文の概要: PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance
- arxiv url: http://arxiv.org/abs/2008.03462v1
- Date: Sat, 8 Aug 2020 07:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:54:32.548480
- Title: PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance
- Title(参考訳): PAN: 外観の学習による高速な行動認識を目指して
- Authors: Can Zhang, Yuexian Zou, Guang Chen, Lei Gan
- Abstract要約: 最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
- 参考スコア(独自算出の注目度): 60.75488333935592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently modeling dynamic motion information in videos is crucial for
action recognition task. Most state-of-the-art methods heavily rely on dense
optical flow as motion representation. Although combining optical flow with RGB
frames as input can achieve excellent recognition performance, the optical flow
extraction is very time-consuming. This undoubtably will count against
real-time action recognition. In this paper, we shed light on fast action
recognition by lifting the reliance on optical flow. Our motivation lies in the
observation that small displacements of motion boundaries are the most critical
ingredients for distinguishing actions, so we design a novel motion cue called
Persistence of Appearance (PA). In contrast to optical flow, our PA focuses
more on distilling the motion information at boundaries. Also, it is more
efficient by only accumulating pixel-wise differences in feature space, instead
of using exhaustive patch-wise search of all the possible motion vectors. Our
PA is over 1000x faster (8196fps vs. 8fps) than conventional optical flow in
terms of motion modeling speed. To further aggregate the short-term dynamics in
PA to long-term dynamics, we also devise a global temporal fusion strategy
called Various-timescale Aggregation Pooling (VAP) that can adaptively model
long-range temporal relationships across various timescales. We finally
incorporate the proposed PA and VAP to form a unified framework called
Persistent Appearance Network (PAN) with strong temporal modeling ability.
Extensive experiments on six challenging action recognition benchmarks verify
that our PAN outperforms recent state-of-the-art methods at low FLOPs. Codes
and models are available at: https://github.com/zhang-can/PAN-PyTorch.
- Abstract(参考訳): 映像中の動的動作情報を効率的にモデル化することは行動認識タスクに不可欠である。
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
光フローとRGBフレームを入力として組み合わせることで、優れた認識性能が得られるが、光学フロー抽出は非常に時間がかかる。
これは間違いなくリアルタイムのアクション認識に逆らうだろう。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
私たちのモチベーションは、動作境界の小さな変位が行動の識別に最も重要な要素であるという観察にあるため、外観の永続性(pa)と呼ばれる新しい動きの手がかりをデザインする。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
また、全ての可能な動きベクトルの徹底的なパッチワイズ探索を使用する代わりに、特徴空間のピクセル毎の差だけを蓄積することで、より効率的である。
我々のPAは、モーションモデリング速度の点で従来の光学フローよりも1000倍高速(8196fps vs. 8fps)である。
PAの短期的ダイナミクスを長期的ダイナミクスにさらに集約するために、様々な時間スケールにわたる長距離時間関係を適応的にモデル化できる、様々な時間スケール集約プール(VAP)と呼ばれるグローバル時間融合戦略を考案する。
提案するPAとVAPを統合して,強力な時間的モデリング能力を備えた Persistent Appearance Network (PAN) という統合フレームワークを構築した。
6つの挑戦的行動認識ベンチマークに関する広範囲な実験は、我々のpanが最新の最先端手法を低フラップで上回っていることを検証している。
コードとモデルは、https://github.com/zhang-can/PAN-PyTorch.comで入手できる。
関連論文リスト
- PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Alignment [91.38256332633544]
PASTAは、HDRデゴスティングのためのプログレッシブアグリゲーションアグリゲーション・時空間アライメントフレームワークである。
提案手法は,特徴分散中の階層的表現を活用することにより,有効性と効率性を実現する。
実験結果から,従来のSOTA法よりもPASTAの方が視覚的品質と性能の両方で優れていることが示された。
論文 参考訳(メタデータ) (2024-03-15T15:05:29Z) - Flow Dynamics Correction for Action Recognition [43.95003560364798]
我々は,光学的フローに依存する既存の動作認識モデルが,補正された光学的フローによって性能を向上できることを示す。
最適な光学的フロー特徴のみを選択することで,修正されたフローダイナミクスを簡単なステップで一般的なモデルに統合する。
論文 参考訳(メタデータ) (2023-10-16T04:49:06Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Long-Short Temporal Modeling for Efficient Action Recognition [32.159784061961886]
本稿では,ME(Motion Enhancement)モジュールとVLA(Video-level Aggregation)モジュールで構成されるMENetと呼ばれる2ストリーム動作認識ネットワークを提案する。
短時間の動作に対して,隣接するセグメント間での運動塩分濃度を混合することにより,短時間の動作を改善するための効率的なMEモジュールを設計する。
長期アグリゲーションに関しては、VLAは出現ブランチの上部に採用され、すべてのセグメントにまたがる長期的な依存関係を統合する。
論文 参考訳(メタデータ) (2021-06-30T02:54:13Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。