論文の概要: Every Shot Counts: Using Exemplars for Repetition Counting in Videos
- arxiv url: http://arxiv.org/abs/2403.18074v1
- Date: Tue, 26 Mar 2024 19:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:05:06.596421
- Title: Every Shot Counts: Using Exemplars for Repetition Counting in Videos
- Title(参考訳): すべてのショットカウント:ビデオの繰り返しカウントにexemplarsを使う
- Authors: Saptarshi Sinha, Alexandros Stergiou, Dima Damen,
- Abstract要約: ビデオの繰り返し回数は、ビデオ内で繰り返される行動や動きの回数を推測する。
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
- 参考スコア(独自算出の注目度): 66.1933685445448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video repetition counting infers the number of repetitions of recurring actions or motion within a video. We propose an exemplar-based approach that discovers visual correspondence of video exemplars across repetitions within target videos. Our proposed Every Shot Counts (ESCounts) model is an attention-based encoder-decoder that encodes videos of varying lengths alongside exemplars from the same and different videos. In training, ESCounts regresses locations of high correspondence to the exemplars within the video. In tandem, our method learns a latent that encodes representations of general repetitive motions, which we use for exemplar-free, zero-shot inference. Extensive experiments over commonly used datasets (RepCount, Countix, and UCFRep) showcase ESCounts obtaining state-of-the-art performance across all three datasets. On RepCount, ESCounts increases the off-by-one from 0.39 to 0.56 and decreases the mean absolute error from 0.38 to 0.21. Detailed ablations further demonstrate the effectiveness of our method.
- Abstract(参考訳): ビデオの繰り返し回数は、ビデオ内で繰り返される行動や動きの回数を推測する。
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
トレーニングでは、ESCountsはビデオ内の模範者と高い対応の場所を後退させる。
タンデム法では, 一般反復運動の表現を符号化する潜在子を学習し, 模範のないゼロショット推論に使用する。
一般的に使用されるデータセット(RepCount、Countix、UCFRep)に対する大規模な実験では、ESCountsが3つのデータセットすべてで最先端のパフォーマンスを得ることを示した。
RepCount では、ESCounts はオフ・バイ・ワンを 0.39 から 0.56 に増加させ、平均絶対誤差を 0.38 から 0.21 に減少させる。
詳細な説明は、我々の方法の有効性をさらに示している。
関連論文リスト
- A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - CoVR: Learning Composed Video Retrieval from Web Video Captions [57.99245753141031]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Full Resolution Repetition Counting [19.676724611655914]
トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。
ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。
本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
論文 参考訳(メタデータ) (2023-05-23T07:45:56Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - TransRAC: Encoding Multi-scale Temporal Correlation with Transformers
for Repetitive Action Counting [30.541542156648894]
既存の手法は、短いビデオで反復的なアクションカウントを実行することに重点を置いている。
多様なビデオ長をカバーする大規模反復的行動カウントデータセットを提案する。
本研究では,行動周期の微粒化アノテーションの助けを借りて,行動周期を予測する密度マップ回帰に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-04-03T07:50:18Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-06-27T18:00:42Z) - Zero-Shot Activity Recognition with Videos [0.0]
視覚的およびテキスト的多様体間の多モーダルな関節埋め込み空間を構築するための自動エンコーダモデルを提案する。
視覚面では,動作ビデオと最先端の3D畳み込み動作認識ネットワークを用いて特徴を抽出した。
テキスト側では、GloVeワードの埋め込みで作業しました。
論文 参考訳(メタデータ) (2020-01-22T16:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。