論文の概要: Context-Aware Network Based on Multi-scale Spatio-temporal Attention for Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2512.18750v1
- Date: Sun, 21 Dec 2025 14:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.489408
- Title: Context-Aware Network Based on Multi-scale Spatio-temporal Attention for Action Recognition in Videos
- Title(参考訳): ビデオにおける行動認識のためのマルチスケール時空間アテンションに基づく文脈認識ネットワーク
- Authors: Xiaoyang Li, Wenzhu Yang, Kanglin Wang, Tiebiao Wang, Qingsong Fei,
- Abstract要約: コンテキスト・アウェア・ネットワーク(CAN)について紹介する。
CANは、MTCM(Multiscale Temporal Cue Module)とGSCM(Group Spatial Cue Module)の2つのコアモジュールから構成されている。
本手法は,Something V1で50.4%,Something2で63.9%,Diving48で88.4%,Kinetics-400で74.9%,UCF101で86.9%の精度で,競争性能を向上する。
- 参考スコア(独自算出の注目度): 2.729217186919621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is a critical task in video understanding, requiring the comprehensive capture of spatio-temporal cues across various scales. However, existing methods often overlook the multi-granularity nature of actions. To address this limitation, we introduce the Context-Aware Network (CAN). CAN consists of two core modules: the Multi-scale Temporal Cue Module (MTCM) and the Group Spatial Cue Module (GSCM). MTCM effectively extracts temporal cues at multiple scales, capturing both fast-changing motion details and overall action flow. GSCM, on the other hand, extracts spatial cues at different scales by grouping feature maps and applying specialized extraction methods to each group. Experiments conducted on five benchmark datasets (Something-Something V1 and V2, Diving48, Kinetics-400, and UCF101) demonstrate the effectiveness of CAN. Our approach achieves competitive performance, outperforming most mainstream methods, with accuracies of 50.4% on Something-Something V1, 63.9% on Something-Something V2, 88.4% on Diving48, 74.9% on Kinetics-400, and 86.9% on UCF101. These results highlight the importance of capturing multi-scale spatio-temporal cues for robust action recognition.
- Abstract(参考訳): アクション認識はビデオ理解において重要な課題であり、様々なスケールにわたる時空間的手がかりを包括的に捉える必要がある。
しかし、既存の手法はアクションの多粒性の性質をしばしば見落としている。
この制限に対処するために、Context-Aware Network (CAN)を導入する。
CANは、MTCM(Multi-scale Temporal Cue Module)とGSCM(Group Spatial Cue Module)の2つのコアモジュールから構成されている。
MTCMは、複数のスケールで時間的手がかりを効果的に抽出し、高速に変化する動きの詳細と全体的な動作フローの両方をキャプチャする。
一方、GSCMは特徴写像をグループ化し、各グループに特殊抽出手法を適用することにより、異なるスケールで空間的手がかりを抽出する。
5つのベンチマークデータセット(Something-Something V1, V2, Diving48, Kinetics-400, UCF101)で実施された実験は、CANの有効性を示した。
本手法は,Something V1で50.4%,Something V2で63.9%,Diving48で88.4%,Kineetics-400で74.9%,UCF101で86.9%の精度で,競争性能を向上する。
これらの結果から,ロバストな行動認識のためのマルチスケール時空間的手がかりの収集の重要性が浮き彫りになった。
関連論文リスト
- ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition [111.32822459456793]
ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
論文 参考訳(メタデータ) (2024-10-08T07:55:09Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - GaitMM: Multi-Granularity Motion Sequence Learning for Gait Recognition [6.877671230651998]
歩行認識は、各身体部位の異なる周期的な動きを観察することにより、個人固有の歩行パターンを識別することを目的としている。
既存のほとんどの手法は各部分を等しく扱い、異なるステップ周波数と歩行のサンプリングレートによって引き起こされるデータの冗長性を考慮できない。
本研究では,歩行系列学習のためのマルチグラニュラリティ動作表現(GaitMM)を提案する。
論文 参考訳(メタデータ) (2022-09-18T04:07:33Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Skeleton-Split Framework using Spatial Temporal Graph Convolutional
Networks for Action Recogntion [2.132096006921048]
本研究の目的は,ST-GCNモデルを用いた日常生活活動の認識である。
接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。
インデックス分割分割戦略を用いて、73.25 %トップ-1の精度を実現する。
論文 参考訳(メタデータ) (2021-11-04T18:59:02Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。