論文の概要: MultiCounter: Multiple Action Agnostic Repetition Counting in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2409.04035v1
- Date: Fri, 6 Sep 2024 05:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:48:15.959809
- Title: MultiCounter: Multiple Action Agnostic Repetition Counting in Untrimmed Videos
- Title(参考訳): MultiCounter: 未編集ビデオにおける複数アクション非依存の反復数
- Authors: Yin Tang, Wei Luo, Jinrui Zhang, Wei Huang, Ruihai Jing, Deyu Zhang,
- Abstract要約: Multi-instance Repetitive Action Countingは、未トリミングビデオにおける複数のインスタンスによって実行される反復アクションの数を推定することを目的としている。
繰り返しインスタンスの同時検出,追跡,カウントを可能にするフレームワークであるMultiCounterを提案する。
我々は、アノテーション付き実世界のビデオから生成されたMultiRepと呼ばれる合成データセットでMultiCounterを訓練する。
- 参考スコア(独自算出の注目度): 8.534061976768292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-instance Repetitive Action Counting (MRAC) aims to estimate the number of repetitive actions performed by multiple instances in untrimmed videos, commonly found in human-centric domains like sports and exercise. In this paper, we propose MultiCounter, a fully end-to-end deep learning framework that enables simultaneous detection, tracking, and counting of repetitive actions of multiple human instances. Specifically, MultiCounter incorporates two novel modules: 1) mixed spatiotemporal interaction for efficient context correlation across consecutive frames, and 2) task-specific heads for accurate perception of periodic boundaries and generalization for action-agnostic human instances. We train MultiCounter on a synthetic dataset called MultiRep generated from annotated real-world videos. Experiments on the MultiRep dataset validate the fundamental challenge of MRAC tasks and showcase the superiority of our proposed model. Compared to ByteTrack+RepNet, a solution that combines an advanced tracker with a single repetition counter, MultiCounter substantially improves Period-mAP by 41.0%, reduces AvgMAE by 58.6%, and increases AvgOBO 1.48 times. This sets a new benchmark in the field of MRAC. Moreover, MultiCounter runs in real-time on a commodity GPU server and is insensitive to the number of human instances in a video.
- Abstract(参考訳): MRAC(Multi-instance Repetitive Action Counting)は、スポーツやエクササイズといった人間中心のドメインで一般的に見られる、トリミングされていないビデオの複数のインスタンスによって実行される反復的なアクションの数を推定することを目的としている。
本稿では,複数インスタンスの繰り返し動作の同時検出,追跡,カウントが可能な,エンドツーエンドのディープラーニングフレームワークであるMultiCounterを提案する。
具体的には、MultiCounterには2つの新しいモジュールが含まれている。
1)連続フレーム間の効率的な文脈相関のための混合時空間相互作用
2) 周期的境界の正確な認識のためのタスク固有の頭部と行動に依存しない人間の場合の一般化。
我々は、アノテーション付き実世界のビデオから生成されたMultiRepと呼ばれる合成データセットでMultiCounterを訓練する。
MultiRepデータセットの実験はMRACタスクの基本的な課題を検証し、提案モデルの優位性を示す。
高度トラッカーと単一反復カウンタを組み合わせたソリューションであるByteTrack+RepNetと比較して、MultiCounterは周期mAPを41.0%改善し、AvgMAEを58.6%削減し、AvgOBO 1.48倍向上した。
これはMRACの分野での新しいベンチマークとなる。
さらに、MultiCounterはコモディティGPUサーバ上でリアルタイムで動作し、ビデオ内の人間のインスタンスの数に敏感である。
関連論文リスト
- SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation [16.370075234443245]
本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。
具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-15T13:33:30Z) - Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Awesome Multi-modal Object Tracking [41.76977058932557]
マルチモーダルオブジェクトトラッキング(MMOT)は、様々なモダリティからのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-23T05:58:10Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。