論文の概要: Exploiting Inter-Frame Regional Correlation for Efficient Action
Recognition
- arxiv url: http://arxiv.org/abs/2005.02591v1
- Date: Wed, 6 May 2020 04:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:40:51.579660
- Title: Exploiting Inter-Frame Regional Correlation for Efficient Action
Recognition
- Title(参考訳): フレーム間地域相関を利用した効率的な行動認識
- Authors: Yuecong Xu, Jianfei Yang, Kezhi Mao, Jianxiong Yin and Simon See
- Abstract要約: 注意的関連時間特徴(ACTF)と呼ばれる新しい時間的特徴抽出法を提案する。
ACTFは、地域レベルで連続するフレーム間の双線型および線形の相関を利用する。
本手法は,光学的フローベース手法に匹敵する性能が得られるという利点がある。
- 参考スコア(独自算出の注目度): 20.395739273951676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal feature extraction is an important issue in video-based action
recognition. Optical flow is a popular method to extract temporal feature,
which produces excellent performance thanks to its capacity of capturing
pixel-level correlation information between consecutive frames. However, such a
pixel-level correlation is extracted at the cost of high computational
complexity and large storage resource. In this paper, we propose a novel
temporal feature extraction method, named Attentive Correlated Temporal Feature
(ACTF), by exploring inter-frame correlation within a certain region. The
proposed ACTF exploits both bilinear and linear correlation between successive
frames on the regional level. Our method has the advantage of achieving
performance comparable to or better than optical flow-based methods while
avoiding the introduction of optical flow. Experimental results demonstrate our
proposed method achieves the state-of-the-art performances of 96.3% on UCF101
and 76.3% on HMDB51 benchmark datasets.
- Abstract(参考訳): 時間的特徴抽出はビデオに基づく行動認識において重要な問題である。
光フローは時間的特徴を抽出する一般的な手法であり、連続フレーム間の画素レベルの相関情報をキャプチャする能力により優れた性能が得られる。
しかし、そのようなピクセルレベルの相関は、高い計算量と大きなストレージリソースのコストで抽出される。
本稿では,ある領域内でフレーム間相関を探索することにより,ACTF(Attentive Correlated Temporal Feature)と呼ばれる時間的特徴抽出手法を提案する。
提案するactfは,地域レベルでの連続フレーム間の双線形相関と線形相関を利用する。
提案手法は,光学フローの導入を回避しつつ,光学フロー法と同等以上の性能を実現することができる。
提案手法は,UCF101では96.3%,HMDB51ベンチマークでは76.3%の最先端性能を実現する。
関連論文リスト
- Rethink Predicting the Optical Flow with the Kinetics Perspective [1.7901503554839604]
光フロー推定は、低レベルコンピュータビジョンにおける基本的なタスクの1つである。
見かけ上は、連続したフレーム内の画素間の相関として光学フローを見ることができる。
本稿では,このモチベーションから明らかな情報と運動学情報を組み合わせる手法を提案する。
論文 参考訳(メタデータ) (2024-05-21T05:47:42Z) - Self-Supervised Learning for Interventional Image Analytics: Towards Robust Device Trackers [6.262161803642583]
我々は,1600万以上の干渉X線フレームからなる非常に大きなデータコホートから手続き的特徴を学習するための新しい手法を提案する。
本手法は,フレームベース再構成を利用してフレーム間時間対応を微妙に学習するマスク付き画像モデリング技術に基づいている。
実験の結果,提案手法は参照解に対する最大追従誤差を66.31%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:18:22Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization [0.9507070656654633]
ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
論文 参考訳(メタデータ) (2021-11-05T08:39:36Z) - Dense Optical Flow from Event Cameras [55.79329250951028]
本稿では,イベントカメラからの高密度光フロー推定に特徴相関と逐次処理を導入することを提案する。
提案手法は、高密度光流を計算し、MVSEC上での終点誤差を23%削減する。
論文 参考訳(メタデータ) (2021-08-24T07:39:08Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。