論文の概要: Skeleton-Split Framework using Spatial Temporal Graph Convolutional
Networks for Action Recogntion
- arxiv url: http://arxiv.org/abs/2111.03106v1
- Date: Thu, 4 Nov 2021 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:22:03.076835
- Title: Skeleton-Split Framework using Spatial Temporal Graph Convolutional
Networks for Action Recogntion
- Title(参考訳): 時空間グラフ畳み込みネットワークを用いた行動再構成のための骨格分割フレームワーク
- Authors: Motasem Alsawadi and Miguel Rio
- Abstract要約: 本研究の目的は,ST-GCNモデルを用いた日常生活活動の認識である。
接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。
インデックス分割分割戦略を用いて、73.25 %トップ-1の精度を実現する。
- 参考スコア(独自算出の注目度): 2.132096006921048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a dramatic increase in the volume of videos and their related
content uploaded to the internet. Accordingly, the need for efficient
algorithms to analyse this vast amount of data has attracted significant
research interest. An action recognition system based upon human body motions
has been proven to interpret videos contents accurately. This work aims to
recognize activities of daily living using the ST-GCN model, providing a
comparison between four different partitioning strategies: spatial
configuration partitioning, full distance split, connection split, and index
split. To achieve this aim, we present the first implementation of the ST-GCN
framework upon the HMDB-51 dataset. We have achieved 48.88 % top-1 accuracy by
using the connection split partitioning approach. Through experimental
simulation, we show that our proposals have achieved the highest accuracy
performance on the UCF-101 dataset using the ST-GCN framework than the
state-of-the-art approach. Finally, accuracy of 73.25 % top-1 is achieved by
using the index split partitioning strategy.
- Abstract(参考訳): インターネットにアップロードされたビデオや関連コンテンツの量は劇的に増加している。
したがって、膨大な量のデータを分析するための効率的なアルゴリズムの必要性は、大きな研究の関心を集めている。
人体の動きに基づく行動認識システムは,映像内容を正確に解釈することが実証された。
本研究は,st-gcnモデルを用いた日常生活活動の認識を目標とし,空間構成分割,全距離分割,接続分割,インデックス分割の4つの異なる分割戦略の比較を行った。
この目的を達成するため,HMDB-51データセット上にST-GCNフレームワークを実装した。
接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。
実験により,本提案手法は,ST-GCNフレームワークを用いたUCF-101データセットにおいて,最先端のアプローチよりも高い精度を達成できたことを示す。
最後に、インデックス分割分割戦略を用いて、73.25 % top-1の精度を達成する。
関連論文リスト
- Lane Segmentation Refinement with Diffusion Models [4.292002248705256]
レーングラフはハイデフィニション(HD)マップを構築する上で重要な要素であり、自動運転やナビゲーション計画といった下流業務に不可欠である。
He et al. (2022) は、セグメンテーションに基づくアプローチを用いて、空中画像からレーンレベルグラフの抽出を探索した。
我々は,このセグメンテーションに基づくアプローチを洗練し,拡散確率モデル(DPM)コンポーネントで拡張するためのさらなる拡張について検討する。
この組み合わせにより、非断面積の非方向グラフにおけるレーングラフの品質の重要な指標であるGEO F1とTOPO F1のスコアがさらに改善される。
論文 参考訳(メタデータ) (2024-05-01T16:40:15Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - PSUMNet: Unified Modality Part Streams are All You Need for Efficient
Pose-based Action Recognition [10.340665633567081]
我々は、スケーラブルで効率的なポーズベースのアクション認識のための新しいアプローチPSUMNetを紹介する。
表現レベルでは、従来のモダリティに基づくストリームとは対照的に、グローバルなフレームベースの部分ストリームアプローチを提案する。
PSUMNetは非常に効率的で、100%-400%以上のパラメータを使用する競合メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-08-11T12:12:07Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Skeleton Split Strategies for Spatial Temporal Graph Convolution
Networks [2.132096006921048]
人体の骨格表現は、この作業に有効であることが証明されている。
骨格グラフ上で畳み込み操作を行うための新しい手法のセットを示す。
論文 参考訳(メタデータ) (2021-08-03T05:57:52Z) - Guided Interactive Video Object Segmentation Using Reliability-Based
Attention Maps [55.94785248905853]
本論文では,映像オブジェクトの対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーション精度の向上と対話時間の短縮を図る。
我々は,隣接フレームにセグメンテーション結果を伝達する,交差点対応伝搬モジュールを開発した。
実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T07:08:57Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。