論文の概要: Counting Out Time: Class Agnostic Video Repetition Counting in the Wild
- arxiv url: http://arxiv.org/abs/2006.15418v1
- Date: Sat, 27 Jun 2020 18:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:59:18.807202
- Title: Counting Out Time: Class Agnostic Video Repetition Counting in the Wild
- Title(参考訳): count out time: クラスに依存しないビデオの繰り返し数
- Authors: Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet,
Andrew Zisserman
- Abstract要約: 本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 82.26003709476848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach for estimating the period with which an action is
repeated in a video. The crux of the approach lies in constraining the period
prediction module to use temporal self-similarity as an intermediate
representation bottleneck that allows generalization to unseen repetitions in
videos in the wild. We train this model, called Repnet, with a synthetic
dataset that is generated from a large unlabeled video collection by sampling
short clips of varying lengths and repeating them with different periods and
counts. This combination of synthetic data and a powerful yet constrained
model, allows us to predict periods in a class-agnostic fashion. Our model
substantially exceeds the state of the art performance on existing periodicity
(PERTUBE) and repetition counting (QUVA) benchmarks. We also collect a new
challenging dataset called Countix (~90 times larger than existing datasets)
which captures the challenges of repetition counting in real-world videos.
Project webpage: https://sites.google.com/view/repnet .
- Abstract(参考訳): 本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
このアプローチの要点は、時間的自己相似性を中間的な表現ボトルネックとして使用するように周期予測モジュールを制約することにある。
我々はRepnetと呼ばれるこのモデルを、様々な長さの短いクリップをサンプリングし、異なる期間と回数で繰り返して、大規模なラベル付きビデオコレクションから生成された合成データセットで訓練する。
この合成データと強力な制約のあるモデルの組み合わせにより、クラスに依存しない方法で周期を予測できる。
我々のモデルは,既存の周期性 (PERTUBE) と反復数 (QUVA) ベンチマークのアートパフォーマンスの状況を大幅に上回る。
countix(既存のデータセットの約90倍の大きさ)と呼ばれる新しい挑戦的なデータセットも収集しています。
プロジェクトWebページ: https://sites.google.com/view/repnet
関連論文リスト
- OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文 参考訳(メタデータ) (2024-07-24T08:22:49Z) - Every Shot Counts: Using Exemplars for Repetition Counting in Videos [66.1933685445448]
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
論文 参考訳(メタデータ) (2024-03-26T19:54:21Z) - Full Resolution Repetition Counting [19.676724611655914]
トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。
ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。
本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
論文 参考訳(メタデータ) (2023-05-23T07:45:56Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Learning from Irregularly-Sampled Time Series: A Missing Data
Perspective [18.493394650508044]
不規則にサンプリングされた時系列は、医療を含む多くの領域で発生する。
連続だが観測されていない関数からサンプリングされた指数値対の列として、不規則にサンプリングされた時系列データをモデル化する。
本稿では,変分オートエンコーダと生成対向ネットワークに基づく学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-17T20:01:55Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。