論文の概要: TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting
- arxiv url: http://arxiv.org/abs/2204.01018v1
- Date: Sun, 3 Apr 2022 07:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:31:35.262798
- Title: TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting
- Title(参考訳): TransRAC:反復行動計数のための変圧器とのマルチスケール時間相関の符号化
- Authors: Huazhang Hu, Sixun Dong, Yiqun Zhao, Dongze Lian, Zhengxin Li,
Shenghua Gao
- Abstract要約: 既存の手法は、短いビデオで反復的なアクションカウントを実行することに重点を置いている。
多様なビデオ長をカバーする大規模反復的行動カウントデータセットを提案する。
本研究では,行動周期の微粒化アノテーションの助けを借りて,行動周期を予測する密度マップ回帰に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 30.541542156648894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counting repetitive actions are widely seen in human activities such as
physical exercise. Existing methods focus on performing repetitive action
counting in short videos, which is tough for dealing with longer videos in more
realistic scenarios. In the data-driven era, the degradation of such
generalization capability is mainly attributed to the lack of long video
datasets. To complement this margin, we introduce a new large-scale repetitive
action counting dataset covering a wide variety of video lengths, along with
more realistic situations where action interruption or action inconsistencies
occur in the video. Besides, we also provide a fine-grained annotation of the
action cycles instead of just counting annotation along with a numerical value.
Such a dataset contains 1,451 videos with about 20,000 annotations, which is
more challenging. For repetitive action counting towards more realistic
scenarios, we further propose encoding multi-scale temporal correlation with
transformers that can take into account both performance and efficiency.
Furthermore, with the help of fine-grained annotation of action cycles, we
propose a density map regression-based method to predict the action period,
which yields better performance with sufficient interpretability. Our proposed
method outperforms state-of-the-art methods on all datasets and also achieves
better performance on the unseen dataset without fine-tuning. The dataset and
code are available.
- Abstract(参考訳): 反復行動のカウントは、身体運動などの人間の活動で広く見られる。
既存の方法は短いビデオで反復的なアクションカウントを行うことに集中しており、より現実的なシナリオでは長いビデオを扱うのは難しい。
データ駆動時代において、そのような一般化能力の劣化は主に、長いビデオデータセットの欠如に起因する。
この限界を補うために,多種多様なビデオ長をカバーする新しい大規模反復的アクションカウントデータセットと,映像内で動作中断や動作不整合が発生するようなより現実的な状況を紹介する。
さらに、アノテーションを数値値と共にカウントするだけでなく、アクションサイクルの詳細なアノテーションも提供します。
このようなデータセットには、約20,000のアノテーションを備えた1,451のビデオが含まれている。
より現実的なシナリオに向けて繰り返し行動計数を行うために、我々はさらに、性能と効率の両面を考慮した変換器によるマルチスケール時間相関の符号化を提案する。
さらに,アクションサイクルの細粒度アノテーションの助けを借りて,行動周期を予測するための密度マップ回帰に基づく手法を提案する。
提案手法は,全データセットにおける最先端の手法よりも優れており,微調整をせずに未確認データセットの性能も向上する。
データセットとコードは利用可能だ。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Efficient Action Counting with Dynamic Queries [31.833468477101604]
線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
提案手法は, 従来よりも特に, 長時間の映像シーケンス, 見えない動作, 様々な速度での動作において, 顕著に優れていた。
論文 参考訳(メタデータ) (2024-03-03T15:43:11Z) - Full Resolution Repetition Counting [19.676724611655914]
トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。
ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。
本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
論文 参考訳(メタデータ) (2023-05-23T07:45:56Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。