論文の概要: TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting
- arxiv url: http://arxiv.org/abs/2204.01018v1
- Date: Sun, 3 Apr 2022 07:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:31:35.262798
- Title: TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting
- Title(参考訳): TransRAC:反復行動計数のための変圧器とのマルチスケール時間相関の符号化
- Authors: Huazhang Hu, Sixun Dong, Yiqun Zhao, Dongze Lian, Zhengxin Li,
Shenghua Gao
- Abstract要約: 既存の手法は、短いビデオで反復的なアクションカウントを実行することに重点を置いている。
多様なビデオ長をカバーする大規模反復的行動カウントデータセットを提案する。
本研究では,行動周期の微粒化アノテーションの助けを借りて,行動周期を予測する密度マップ回帰に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 30.541542156648894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counting repetitive actions are widely seen in human activities such as
physical exercise. Existing methods focus on performing repetitive action
counting in short videos, which is tough for dealing with longer videos in more
realistic scenarios. In the data-driven era, the degradation of such
generalization capability is mainly attributed to the lack of long video
datasets. To complement this margin, we introduce a new large-scale repetitive
action counting dataset covering a wide variety of video lengths, along with
more realistic situations where action interruption or action inconsistencies
occur in the video. Besides, we also provide a fine-grained annotation of the
action cycles instead of just counting annotation along with a numerical value.
Such a dataset contains 1,451 videos with about 20,000 annotations, which is
more challenging. For repetitive action counting towards more realistic
scenarios, we further propose encoding multi-scale temporal correlation with
transformers that can take into account both performance and efficiency.
Furthermore, with the help of fine-grained annotation of action cycles, we
propose a density map regression-based method to predict the action period,
which yields better performance with sufficient interpretability. Our proposed
method outperforms state-of-the-art methods on all datasets and also achieves
better performance on the unseen dataset without fine-tuning. The dataset and
code are available.
- Abstract(参考訳): 反復行動のカウントは、身体運動などの人間の活動で広く見られる。
既存の方法は短いビデオで反復的なアクションカウントを行うことに集中しており、より現実的なシナリオでは長いビデオを扱うのは難しい。
データ駆動時代において、そのような一般化能力の劣化は主に、長いビデオデータセットの欠如に起因する。
この限界を補うために,多種多様なビデオ長をカバーする新しい大規模反復的アクションカウントデータセットと,映像内で動作中断や動作不整合が発生するようなより現実的な状況を紹介する。
さらに、アノテーションを数値値と共にカウントするだけでなく、アクションサイクルの詳細なアノテーションも提供します。
このようなデータセットには、約20,000のアノテーションを備えた1,451のビデオが含まれている。
より現実的なシナリオに向けて繰り返し行動計数を行うために、我々はさらに、性能と効率の両面を考慮した変換器によるマルチスケール時間相関の符号化を提案する。
さらに,アクションサイクルの細粒度アノテーションの助けを借りて,行動周期を予測するための密度マップ回帰に基づく手法を提案する。
提案手法は,全データセットにおける最先端の手法よりも優れており,微調整をせずに未確認データセットの性能も向上する。
データセットとコードは利用可能だ。
関連論文リスト
- Efficient Action Counting with Dynamic Queries [31.833468477101604]
線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。
静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。
提案手法は, 従来よりも特に, 長時間の映像シーケンス, 見えない動作, 様々な速度での動作において, 顕著に優れていた。
論文 参考訳(メタデータ) (2024-03-03T15:43:11Z) - Full Resolution Repetition Counting [19.676724611655914]
トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。
ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。
本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
論文 参考訳(メタデータ) (2023-05-23T07:45:56Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。