論文の概要: Full Resolution Repetition Counting
- arxiv url: http://arxiv.org/abs/2305.13778v2
- Date: Wed, 24 May 2023 10:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:54:10.068183
- Title: Full Resolution Repetition Counting
- Title(参考訳): 全分解能反復計数
- Authors: Jianing Li and Bowen Chen and Zhiyong Wang and Honghai Liu
- Abstract要約: トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。
ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。
本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
- 参考スコア(独自算出の注目度): 19.676724611655914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given an untrimmed video, repetitive actions counting aims to estimate the
number of repetitions of class-agnostic actions. To handle the various length
of videos and repetitive actions, also optimization challenges in end-to-end
video model training, down-sampling is commonly utilized in recent
state-of-the-art methods, leading to ignorance of several repetitive samples.
In this paper, we attempt to understand repetitive actions from a full temporal
resolution view, by combining offline feature extraction and temporal
convolution networks. The former step enables us to train repetition counting
network without down-sampling while preserving all repetition regardless of the
video length and action frequency, and the later network models all frames in a
flexible and dynamically expanding temporal receptive field to retrieve all
repetitions with a global aspect. We experimentally demonstrate that our method
achieves better or comparable performance in three public datasets, i.e.,
TransRAC, UCFRep and QUVA. We expect this work will encourage our community to
think about the importance of full temporal resolution.
- Abstract(参考訳): 繰り返しアクションのカウントは、クラスに依存しないアクションの繰り返しの数を見積もることを目的としている。
ビデオの様々な長さと繰り返し動作を扱うために、エンドツーエンドのビデオモデルトレーニングにおける最適化の課題として、ダウンサンプリングは最近の最先端の手法で一般的に利用されており、複数の繰り返しサンプルを無視している。
本稿では,オフライン特徴抽出と時間畳み込みネットワークを組み合わせることで,全時間分解視点から繰り返し動作を理解することを試みる。
前回のステップでは,ビデオの長さや動作周波数に関わらず,すべての繰り返しを保存しながら,ダウンサンプリングすることなく繰り返しカウントネットワークをトレーニングすることが可能であり,後段のネットワークでは,全フレームを柔軟かつ動的に拡張した時間的受容野でモデル化し,全繰り返しをグローバルに取得できる。
提案手法は,TransRAC,UCFRep,QUVAの3つの公開データセットにおいて,より優れた,あるいは同等のパフォーマンスが得られることを示す。
この作業がコミュニティに、完全な時間的解決の重要性について考えさせることを期待しています。
関連論文リスト
- Every Shot Counts: Using Exemplars for Repetition Counting in Videos [66.1933685445448]
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
論文 参考訳(メタデータ) (2024-03-26T19:54:21Z) - TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting [30.541542156648894]
既存の手法は、短いビデオで反復的なアクションカウントを実行することに重点を置いている。
多様なビデオ長をカバーする大規模反復的行動カウントデータセットを提案する。
本研究では,行動周期の微粒化アノテーションの助けを借りて,行動周期を予測する密度マップ回帰に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-04-03T07:50:18Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-06-27T18:00:42Z) - Context-aware and Scale-insensitive Temporal Repetition Counting [60.40438811580856]
時間的反復カウントは、与えられた反復行動のサイクル数を推定することを目的としている。
既存のディープラーニング手法は、実生活における複雑な反復行動に対して無効である固定された時間スケールで繰り返し動作が実行されると仮定する。
本稿では,未知かつ多様なサイクル長による繰り返しカウントの課題に対処するための文脈認識・スケール非感性フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T05:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。