論文の概要: VA-AR: Learning Velocity-Aware Action Representations with Mixture of Window Attention
- arxiv url: http://arxiv.org/abs/2503.11004v1
- Date: Fri, 14 Mar 2025 02:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:34.635633
- Title: VA-AR: Learning Velocity-Aware Action Representations with Mixture of Window Attention
- Title(参考訳): VA-AR:ウィンドウ注意の混合による速度認識行動表現の学習
- Authors: Jiangning Wei, Lixiong Qin, Bo Yu, Tianjian Zou, Chuhan Yan, Dandan Xiao, Yang Yu, Lan Yang, Ke Li, Jun Liu,
- Abstract要約: 本研究では,速度認識型行動認識(VA-AR)フレームワークを導入し,異なる速度におけるロバストな行動表現を実現する。
VA-ARはMixture of Window Attention (MoWA)戦略を採用し、アクションの速度に基づいて注意窓のサイズを動的に調整する。
VA-ARは同じ5つのデータセットで最先端のパフォーマンスを実現し、幅広いアクション認識シナリオでVA-ARの有効性を示す。
- 参考スコア(独自算出の注目度): 12.492172281746155
- License:
- Abstract: Action recognition is a crucial task in artificial intelligence, with significant implications across various domains. We initially perform a comprehensive analysis of seven prominent action recognition methods across five widely-used datasets. This analysis reveals a critical, yet previously overlooked, observation: as the velocity of actions increases, the performance of these methods variably declines, undermining their robustness. This decline in performance poses significant challenges for their application in real-world scenarios. Building on these findings, we introduce the Velocity-Aware Action Recognition (VA-AR) framework to obtain robust action representations across different velocities. Our principal insight is that rapid actions (e.g., the giant circle backward in uneven bars or a smash in badminton) occur within short time intervals, necessitating smaller temporal attention windows to accurately capture intricate changes. Conversely, slower actions (e.g., drinking water or wiping face) require larger windows to effectively encompass the broader context. VA-AR employs a Mixture of Window Attention (MoWA) strategy, dynamically adjusting its attention window size based on the action's velocity. This adjustment enables VA-AR to obtain a velocity-aware representation, thereby enhancing the accuracy of action recognition. Extensive experiments confirm that VA-AR achieves state-of-the-art performance on the same five datasets, demonstrating VA-AR's effectiveness across a broad spectrum of action recognition scenarios.
- Abstract(参考訳): 行動認識は人工知能において重要な課題であり、様々な領域に重大な影響を及ぼす。
まず、広く使われている5つのデータセットにまたがる7つの顕著な行動認識手法を包括的に分析する。
行動の速度が増加するにつれて、これらの手法の性能は可変的に低下し、その頑丈さを損なう。
このパフォーマンスの低下は、現実のシナリオにおけるアプリケーションの大きな課題を引き起こします。
これらの結果に基づいて,速度認識型行動認識(VA-AR)フレームワークを導入し,異なる速度におけるロバストな行動表現を実現する。
我々の主要な洞察は、急激な行動(例えば、不均一なバーで後ろ向きの巨大な円やバドミントンのスマッシュ)は短い時間間隔で起こり、複雑な変化を正確に捉えるために、より小さな時間的注意窓を必要とすることである。
逆に、より遅い行動(飲料水や拭き面など)は、より広い文脈を効果的に包含するために大きな窓を必要とする。
VA-ARはMixture of Window Attention (MoWA)戦略を採用し、アクションの速度に基づいて注意窓のサイズを動的に調整する。
この調整により、VA−ARは速度認識表現を得ることができ、これにより、動作認識の精度が向上する。
大規模な実験により、VA-ARは同じ5つのデータセットで最先端のパフォーマンスを実現し、幅広いアクション認識シナリオでVA-ARの有効性を示す。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric
Videos [2.6572330982240935]
我々は,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築した。
3つの異なるモードから抽出した特徴を,同時に,遅く,かつ高速に評価する,新しいアテンションベース手法を提案する。
2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。
論文 参考訳(メタデータ) (2021-09-02T10:20:18Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。