論文の概要: KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2111.03319v1
- Date: Fri, 5 Nov 2021 08:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:07:48.165817
- Title: KORSAL: Key-point Detection based Online Real-Time Spatio-Temporal
Action Localization
- Title(参考訳): KORSAL:オンラインリアルタイム時空間行動定位に基づくキーポイント検出
- Authors: Kalana Abeywardena, Shechem Sumanthiran, Sakuna Jayasundara, Sachira
Karunasena, Ranga Rodrigo, Peshala Jayasekara
- Abstract要約: ビデオにおけるリアルタイムおよびオンラインのアクションローカライゼーションは、非常に難しい問題である。
近年の試みでは、計算集約的な3D CNNアーキテクチャや、光流を伴う高冗長な2ストリームアーキテクチャを用いて実現されている。
本稿では,高速かつ効率的なキーポイントベースバウンディングボックス予測を用いて行動の空間的ローカライズを提案する。
我々のモデルは41.8FPSのフレームレートを実現しており、これは現代のリアルタイム手法よりも10.7%改善されている。
- 参考スコア(独自算出の注目度): 0.9507070656654633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time and online action localization in a video is a critical yet highly
challenging problem. Accurate action localization requires the utilization of
both temporal and spatial information. Recent attempts achieve this by using
computationally intensive 3D CNN architectures or highly redundant two-stream
architectures with optical flow, making them both unsuitable for real-time,
online applications. To accomplish activity localization under highly
challenging real-time constraints, we propose utilizing fast and efficient
key-point based bounding box prediction to spatially localize actions. We then
introduce a tube-linking algorithm that maintains the continuity of action
tubes temporally in the presence of occlusions. Further, we eliminate the need
for a two-stream architecture by combining temporal and spatial information
into a cascaded input to a single network, allowing the network to learn from
both types of information. Temporal information is efficiently extracted using
a structural similarity index map as opposed to computationally intensive
optical flow. Despite the simplicity of our approach, our lightweight
end-to-end architecture achieves state-of-the-art frame-mAP of 74.7% on the
challenging UCF101-24 dataset, demonstrating a performance gain of 6.4% over
the previous best online methods. We also achieve state-of-the-art video-mAP
results compared to both online and offline methods. Moreover, our model
achieves a frame rate of 41.8 FPS, which is a 10.7% improvement over
contemporary real-time methods.
- Abstract(参考訳): ビデオ内のリアルタイムおよびオンラインのアクションローカライズは、非常に難しい問題である。
正確な行動ローカライゼーションには時間的情報と空間的情報の両方を活用する必要がある。
最近の試みでは、計算集約的な3D CNNアーキテクチャや、光学フローを持つ高冗長な2ストリームアーキテクチャを使うことで実現されている。
リアルタイム制約下でのアクティビティローカライズを実現するために,行動の空間的ローカライズのための高速かつ効率的なキーポイントベース境界ボックス予測手法を提案する。
次に, 咬合の存在下での作用管の連続性を時間的に維持するチューブリンクアルゴリズムを提案する。
さらに、時間的・空間的な情報をひとつのネットワークへのケースドインプットに組み合わせることで、2ストリームアーキテクチャの必要性を解消し、ネットワークが両方のタイプの情報から学習できるようにする。
計算集約的な光フローとは対照的に、構造的類似度指数マップを用いて、時間情報を効率的に抽出する。
このアプローチの単純さにもかかわらず、私たちの軽量なエンドツーエンドアーキテクチャは、挑戦的なUCF101-24データセット上で74.7%の最先端のフレーム-mAPを実現しています。
また、オンラインとオフラインの両方の手法と比較して、最先端のビデオmAP結果が得られる。
さらに,現代のリアルタイム手法よりも10.7%向上した41.8FPSのフレームレートを実現した。
関連論文リスト
- STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Fast Neural Scene Flow [36.29234109363439]
座標ニューラルネットワークは、トレーニングなしで実行時のシーンフローを推定する。
本稿では,損失関数自体から生じる支配的な計算ボトルネックを伴って,シーンフローが異なることを実証する。
我々の高速ニューラルネットワークシーンフロー(FNSF)アプローチは、学習手法に匹敵するリアルタイムパフォーマンスを初めて報告します。
論文 参考訳(メタデータ) (2023-04-18T16:37:18Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。