論文の概要: Action Keypoint Network for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2201.06304v1
- Date: Mon, 17 Jan 2022 09:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:50:54.597349
- Title: Action Keypoint Network for Efficient Video Recognition
- Title(参考訳): 効率的な映像認識のためのアクションキーポイントネットワーク
- Authors: Xu Chen, Yahong Han, Xiaohan Wang, Yifan Sun, Yi Yang
- Abstract要約: 本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 63.48422805355741
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reducing redundancy is crucial for improving the efficiency of video
recognition models. An effective approach is to select informative content from
the holistic video, yielding a popular family of dynamic video recognition
methods. However, existing dynamic methods focus on either temporal or spatial
selection independently while neglecting a reality that the redundancies are
usually spatial and temporal, simultaneously. Moreover, their selected content
is usually cropped with fixed shapes, while the realistic distribution of
informative content can be much more diverse. With these two insights, this
paper proposes to integrate temporal and spatial selection into an Action
Keypoint Network (AK-Net). From different frames and positions, AK-Net selects
some informative points scattered in arbitrary-shaped regions as a set of
action keypoints and then transforms the video recognition into point cloud
classification. AK-Net has two steps, i.e., the keypoint selection and the
point cloud classification. First, it inputs the video into a baseline network
and outputs a feature map from an intermediate layer. We view each pixel on
this feature map as a spatial-temporal point and select some informative
keypoints using self-attention. Second, AK-Net devises a ranking criterion to
arrange the keypoints into an ordered 1D sequence. Consequentially, AK-Net
brings two-fold benefits for efficiency: The keypoint selection step collects
informative content within arbitrary shapes and increases the efficiency for
modeling spatial-temporal dependencies, while the point cloud classification
step further reduces the computational cost by compacting the convolutional
kernels. Experimental results show that AK-Net can consistently improve the
efficiency and performance of baseline methods on several video recognition
benchmarks.
- Abstract(参考訳): ビデオ認識モデルの効率向上には冗長性の低減が不可欠である。
効果的なアプローチは、総合的なビデオから情報コンテンツを選択し、動的なビデオ認識方法の一般的なファミリを生成することである。
しかし、既存の動的手法は時間的あるいは空間的選択を独立的に重視する一方で、冗長性が通常空間的かつ時間的であるという事実を無視する。
さらに、選択されたコンテンツは通常一定の形状で切り分けられるが、情報コンテンツの現実的な分布はより多様である。
これら2つの知見から,時空間選択と空間選択をAK-Net(Action Keypoint Network)に統合することを提案する。
異なるフレームと位置から、AK-Netはアクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
AK-Netにはキーポイント選択とポイントクラウド分類という2つのステップがある。
まず、動画をベースラインネットワークに入力し、中間層から特徴マップを出力する。
この特徴マップ上の各ピクセルを時空間点とみなし、自己注意を用いていくつかの情報的キーポイントを選択する。
次に、ak-netはランキング基準を考案し、キーポイントを順序付けられた1dシーケンスに配置する。
キーポイント選択ステップは任意の形状内で情報的コンテンツを収集し、空間的時間的依存をモデル化する効率を高める一方、ポイントクラウド分類ステップは、畳み込みカーネルをコンパクト化することにより、計算コストをさらに削減する。
実験の結果、ak-netは複数のビデオ認識ベンチマークにおけるベースライン手法の効率と性能を一貫して改善できることがわかった。
関連論文リスト
- Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition [44.10959567844497]
本稿では,最近提案されたAdaFocusV2アルゴリズム上での時空間力学の統一的な定式化について検討する。
AdaFocusV3は、未分化の収穫操作を深い特徴の計算で近似することにより、効果的に訓練することができる。
論文 参考訳(メタデータ) (2022-09-27T15:30:52Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - NUTA: Non-uniform Temporal Aggregation for Action Recognition [29.75987323741384]
非一様時間集合(NUTA)と呼ばれる手法を提案し,情報的時間セグメントのみから特徴を集約する。
我々のモデルは、広く使われている4つの大規模行動認識データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2020-12-15T02:03:37Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。