論文の概要: Effective Action Recognition with Embedded Key Point Shifts
- arxiv url: http://arxiv.org/abs/2008.11378v1
- Date: Wed, 26 Aug 2020 05:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:37:15.550870
- Title: Effective Action Recognition with Embedded Key Point Shifts
- Title(参考訳): 埋め込みキーポイントシフトを用いた効果的な行動認識
- Authors: Haozhi Cao, Yuecong Xu, Jianfei Yang, Kezhi Mao, Jianxiong Yin and
Simon See
- Abstract要約: 我々は、キーポイントシフト埋め込みモジュール(KPSEM$)という新しい時間的特徴抽出モジュールを提案する。
キーポイントは分割領域における最大特徴値を持つ特徴点として適応的に抽出され、キーポイントシフトは対応するキーポイントの空間変位である。
本手法は, 簡単な計算コストでキーポイントシフトを埋め込むことで, 競争性能を向上する。
- 参考スコア(独自算出の注目度): 19.010874017607247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal feature extraction is an essential technique in video-based action
recognition. Key points have been utilized in skeleton-based action recognition
methods but they require costly key point annotation. In this paper, we propose
a novel temporal feature extraction module, named Key Point Shifts Embedding
Module ($KPSEM$), to adaptively extract channel-wise key point shifts across
video frames without key point annotation for temporal feature extraction. Key
points are adaptively extracted as feature points with maximum feature values
at split regions, while key point shifts are the spatial displacements of
corresponding key points. The key point shifts are encoded as the overall
temporal features via linear embedding layers in a multi-set manner. Our method
achieves competitive performance through embedding key point shifts with
trivial computational cost, achieving the state-of-the-art performance of
82.05% on Mini-Kinetics and competitive performance on UCF101,
Something-Something-v1, and HMDB51 datasets.
- Abstract(参考訳): 時間的特徴抽出はビデオに基づく行動認識において重要な技術である。
キーポイントはスケルトンベースのアクション認識法で利用されてきたが、高価なキーポイントアノテーションを必要とする。
本稿では,時間的特徴抽出のためのキーポイントアノテーションを使わずにビデオフレーム間のチャネル毎のキーポイントシフトを適応的に抽出する,key point shifts embedded module(kpsem$)という新しい時間的特徴抽出モジュールを提案する。
キーポイントは分割領域における最大特徴値を持つ特徴点として適応的に抽出され、キーポイントシフトは対応するキーポイントの空間変位である。
キーポイントシフトは、線形埋め込み層をマルチセットで経由する全体的な時間的特徴として符号化される。
UCF101, something-Something-v1, HMDB51データセット上で, キーポイントシフトを簡単な計算コストで埋め込んで, 82.05%の最先端性能を実現し, 競合性能を実現する。
関連論文リスト
- GMM-IKRS: Gaussian Mixture Models for Interpretable Keypoint Refinement and Scoring [9.322937309882022]
キーポイントには、品質に応じてスコアをランク付けできるスコアが付属する。
学習されたキーポイントは手作りのものよりも優れた特性を示すことが多いが、それらのスコアは容易に解釈できない。
本稿では,どの手法でも抽出したキーポイントを解釈可能なスコアで特徴付けることができるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-30T09:39:59Z) - Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。
このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:54:33Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - Unsupervised Object Keypoint Learning using Local Spatial Predictability [10.862430265350804]
オブジェクトキーポイントに基づく表現学習のための新しいアプローチであるPermaKeyを提案する。
AtariにおけるPermaKeyの有効性を実証し、最も顕著なオブジェクト部分に対応するキーポイントを学習し、特定の視覚的障害に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2020-11-25T18:27:05Z) - Keypoint Autoencoders: Learning Interest Points of Semantics [4.551313396927381]
キーポイント検出のための教師なし学習手法であるキーポイントオートエンコーダを提案する。
キーポイントから元のポイントクラウドへの再構成を強制することで、疎いセマンティックキーポイントの選択を奨励する。
選択したキーポイントの特異性を示すために、スパースキーポイントで形状を分類する下流タスクを行う。
論文 参考訳(メタデータ) (2020-08-11T03:43:18Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。