論文の概要: OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos
- arxiv url: http://arxiv.org/abs/2407.17085v1
- Date: Wed, 24 Jul 2024 08:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:23:43.969077
- Title: OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos
- Title(参考訳): OVR: ビデオにおける語彙の時間的反復数のためのデータセット
- Authors: Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Andrew Zisserman,
- Abstract要約: データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
- 参考スコア(独自算出の注目度): 58.5538620720541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a dataset of annotations of temporal repetitions in videos. The dataset, OVR (pronounced as over), contains annotations for over 72K videos, with each annotation specifying the number of repetitions, the start and end time of the repetitions, and also a free-form description of what is repeating. The annotations are provided for videos sourced from Kinetics and Ego4D, and consequently cover both Exo and Ego viewing conditions, with a huge variety of actions and activities. Moreover, OVR is almost an order of magnitude larger than previous datasets for video repetition. We also propose a baseline transformer-based counting model, OVRCounter, that can localise and count repetitions in videos that are up to 320 frames long. The model is trained and evaluated on the OVR dataset, and its performance assessed with and without using text to specify the target class to count. The performance is also compared to a prior repetition counting model. The dataset is available for download at: https://sites.google.com/view/openvocabreps/
- Abstract(参考訳): ビデオに時間的繰り返しのアノテーションのデータセットを導入する。
データセットであるOVRには72Kビデオのアノテーションが含まれており、各アノテーションには繰り返し回数、繰り返しの開始と終了時間、そして何が繰り返されているかのフリーフォームの記述が含まれている。
アノテーションはKineeticsとEgo4Dからソースされたビデオに提供され、それによってExoとEgoの両方の視聴条件をカバーし、さまざまなアクションとアクティビティを持つ。
さらに、OVRはビデオ繰り返しのデータセットよりも桁違いに大きい。
また,最大320フレームの動画をローカライズ・カウント可能なベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
モデルは、OVRデータセットに基づいてトレーニングされ、評価され、そのパフォーマンスは、テキストを使用してカウントするターゲットクラスを指定することなく評価される。
パフォーマンスは、前回の繰り返しカウントモデルと比較される。
データセットは、https://sites.google.com/view/openvocabreps/でダウンロードできる。
関連論文リスト
- Every Shot Counts: Using Exemplars for Repetition Counting in Videos [66.1933685445448]
本稿では,対象ビデオ内の繰り返しにまたがる映像の視覚的対応を見出すための例題に基づくアプローチを提案する。
提案したEvery Shot Counts (ESCounts) モデルは,注目度に基づくエンコーダデコーダであり,同じビデオや異なるビデオの例と並行して,様々な長さのビデオをエンコードする。
論文 参考訳(メタデータ) (2024-03-26T19:54:21Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-06-27T18:00:42Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z) - EEV: A Large-Scale Dataset for Studying Evoked Expressions from Video [23.95850953376425]
Evoked Expressions from Videos データセットは、ビデオに対する視聴者の反応を研究するための大規模なデータセットである。
各ビデオは6Hzでアノテートされ、ビデオに反応した視聴者の表情に対応する15の連続的な誘発された表現ラベルが付与される。
23,574本のビデオ(1,700時間)に対する3670万の顔反応アノテーションがある
論文 参考訳(メタデータ) (2020-01-15T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。