論文の概要: Repetitive Action Counting with Hybrid Temporal Relation Modeling
- arxiv url: http://arxiv.org/abs/2412.07233v1
- Date: Tue, 10 Dec 2024 06:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:11.198444
- Title: Repetitive Action Counting with Hybrid Temporal Relation Modeling
- Title(参考訳): ハイブリッド時間関係モデルを用いた反復行動計数
- Authors: Kun Li, Xinge Peng, Dan Guo, Xun Yang, Meng Wang,
- Abstract要約: 反復行動カウント(英: Repetitive Action Counting、RAC)は、ビデオにおける反復行動の数を数えることを目的としている。
RACのための時間的自己相似行列(TSSM)に基づく既存の手法は、捕獲動作が不十分なボトルネックに閉じ込められている。
RACのための多様なTSSMを構築するために,Hybrid Temporal Relation Modeling Network (HTRM-Net) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 28.588011505143225
- License:
- Abstract: Repetitive Action Counting (RAC) aims to count the number of repetitive actions occurring in videos. In the real world, repetitive actions have great diversity and bring numerous challenges (e.g., viewpoint changes, non-uniform periods, and action interruptions). Existing methods based on the temporal self-similarity matrix (TSSM) for RAC are trapped in the bottleneck of insufficient capturing action periods when applied to complicated daily videos. To tackle this issue, we propose a novel method named Hybrid Temporal Relation Modeling Network (HTRM-Net) to build diverse TSSM for RAC. The HTRM-Net mainly consists of three key components: bi-modal temporal self-similarity matrix modeling, random matrix dropping, and local temporal context modeling. Specifically, we construct temporal self-similarity matrices by bi-modal (self-attention and dual-softmax) operations, yielding diverse matrix representations from the combination of row-wise and column-wise correlations. To further enhance matrix representations, we propose incorporating a random matrix dropping module to guide channel-wise learning of the matrix explicitly. After that, we inject the local temporal context of video frames and the learned matrix into temporal correlation modeling, which can make the model robust enough to cope with error-prone situations, such as action interruption. Finally, a multi-scale matrix fusion module is designed to aggregate temporal correlations adaptively in multi-scale matrices. Extensive experiments across intra- and cross-datasets demonstrate that the proposed method not only outperforms current state-of-the-art methods but also exhibits robust capabilities in accurately counting repetitive actions in unseen action categories. Notably, our method surpasses the classical TransRAC method by 20.04\% in MAE and 22.76\% in OBO.
- Abstract(参考訳): 反復行動カウント(英: Repetitive Action Counting、RAC)は、ビデオにおける反復行動の数を数えることを目的としている。
現実の世界では、反復的な行動は大きな多様性を持ち、多くの課題をもたらす(例えば、視点の変化、非一様期間、行動中断)。
RACのための時間的自己相似行列(TSSM)に基づく既存の手法は、複雑な日常映像に適用した場合に、捕獲動作が不十分なボトルネックに陥る。
本稿では,RACのための多様なTSSMを構築するために,Hybrid Temporal Relation Modeling Network (HTRM-Net) という新しい手法を提案する。
HTRM-Netは主に、バイモーダル時間的自己相似行列モデリング、ランダム行列のドロップ、局所時間的コンテキストモデリングの3つの重要なコンポーネントで構成されている。
具体的には、時間的自己相似行列をバイモーダル(自己注意と二重ソフトマックス)演算により構築し、行次相関と列次相関の組合せから多彩な行列表現を生成する。
行列表現をさらに強化するために、行列のチャネルワイズ学習を明示的に導くためにランダムな行列降下モジュールを導入することを提案する。
その後、ビデオフレームと学習行列の局所的時間的文脈を時間的相関モデルに注入し、動作中断などのエラー発生状況に対応するのに十分なモデルを堅牢化することができる。
最後に、マルチスケール行列融合モジュールは、多スケール行列において時間的相関を適応的に集約するように設計されている。
実験結果から,提案手法が現在最先端の手法より優れているだけでなく,不明瞭な動作カテゴリにおける反復動作を正確にカウントする堅牢性も示している。
特に,本手法は従来のトランスRAC法を20.04 %,OBO 22.76 % で上回っている。
関連論文リスト
- TiVaT: A Transformer with a Single Unified Mechanism for Capturing Asynchronous Dependencies in Multivariate Time Series Forecasting [4.733959271565453]
TiVaTは、単一の統一モジュール、JA(Joint-Axis)アテンションモジュールを組み込んだ新しいアーキテクチャである。
JA attentionモジュールは、特に非同期インタラクションをキャプチャする関連機能を動的に選択する。
大規模な実験では、さまざまなデータセットにわたるTiVaTの全体的なパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-10-02T13:24:24Z) - Rethinking temporal self-similarity for repetitive action counting [15.84678216421722]
本稿では,埋め込みを学習し,完全な時間分解能で行動開始確率を予測するフレームワークを提案する。
提案するフレームワークは,3つのデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-07-12T17:03:14Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
時系列予測(TSF)のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - Ti-MAE: Self-Supervised Masked Time Series Autoencoders [16.98069693152999]
本稿では,Ti-MAEという新しいフレームワークを提案する。
Ti-MAEは、埋め込み時系列データをランダムにマスクアウトし、オートエンコーダを学び、ポイントレベルでそれらを再構築する。
いくつかの公開実世界のデータセットの実験では、マスク付きオートエンコーディングのフレームワークが生データから直接強力な表現を学習できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T03:20:23Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Dynamic Mode Decomposition in Adaptive Mesh Refinement and Coarsening
Simulations [58.720142291102135]
動的モード分解(DMD)はコヒーレントなスキームを抽出する強力なデータ駆動方式である。
本稿では,異なるメッシュトポロジと次元の観測からDMDを抽出する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-28T22:14:25Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。