Fugu-MT 論文翻訳(概要): Every Shot Counts: Using Exemplars for Repetition Counting in Videos

論文の概要: Every Shot Counts: Using Exemplars for Repetition Counting in Videos

arxiv url: http://arxiv.org/abs/2403.18074v1
Date: Tue, 26 Mar 2024 19:54:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 21:05:06.596421
Title: Every Shot Counts: Using Exemplars for Repetition Counting in Videos
Title（参考訳）: すべてのショットカウント:ビデオの繰り返しカウントにexemplarsを使う
Authors: Saptarshi Sinha, Alexandros Stergiou, Dima Damen,
Abstract要約: ビデオの繰り返し回数は、ビデオ内で繰り返される行動や動きの回数を推測する。本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
参考スコア（独自算出の注目度）: 66.1933685445448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video repetition counting infers the number of repetitions of recurring actions or motion within a video. We propose an exemplar-based approach that discovers visual correspondence of video exemplars across repetitions within target videos. Our proposed Every Shot Counts (ESCounts) model is an attention-based encoder-decoder that encodes videos of varying lengths alongside exemplars from the same and different videos. In training, ESCounts regresses locations of high correspondence to the exemplars within the video. In tandem, our method learns a latent that encodes representations of general repetitive motions, which we use for exemplar-free, zero-shot inference. Extensive experiments over commonly used datasets (RepCount, Countix, and UCFRep) showcase ESCounts obtaining state-of-the-art performance across all three datasets. On RepCount, ESCounts increases the off-by-one from 0.39 to 0.56 and decreases the mean absolute error from 0.38 to 0.21. Detailed ablations further demonstrate the effectiveness of our method.
Abstract（参考訳）: ビデオの繰り返し回数は、ビデオ内で繰り返される行動や動きの回数を推測する。本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。トレーニングでは、ESCountsはビデオ内の模範者と高い対応の場所を後退させる。タンデム法では, 一般反復運動の表現を符号化する潜在子を学習し, 模範のないゼロショット推論に使用する。一般的に使用されるデータセット(RepCount、Countix、UCFRep)に対する大規模な実験では、ESCountsが3つのデータセットすべてで最先端のパフォーマンスを得ることを示した。 RepCount では、ESCounts はオフ・バイ・ワンを 0.39 から 0.56 に増加させ、平均絶対誤差を 0.38 から 0.21 に減少させる。詳細な説明は、我々の方法の有効性をさらに示している。

関連論文リスト

Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。 OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文参考訳（メタデータ） (2024-07-24T08:22:49Z)
Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文参考訳（メタデータ） (2024-06-13T05:15:52Z)
Full Resolution Repetition Counting [19.676724611655914]
トリミングされていないビデオが与えられた場合、反復的なアクションカウントは、クラスに依存しないアクションの反復回数を見積もることを目的としている。ダウンサンプリングは最近の最先端の手法で一般的に使われ、いくつかの繰り返しサンプルを無視する。本稿では,オフラインの特徴抽出と時間的畳み込みネットワークを組み合わせることで,時間的分解の視点から繰り返しの動作を理解することを試みる。
論文参考訳（メタデータ） (2023-05-23T07:45:56Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-04-01T16:48:53Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)
Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文参考訳（メタデータ） (2020-06-27T18:00:42Z)
Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文参考訳（メタデータ） (2020-04-05T14:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。