論文の概要: An Annotated Video Dataset for Computing Video Memorability
- arxiv url: http://arxiv.org/abs/2112.02303v1
- Date: Sat, 4 Dec 2021 10:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 05:53:53.656955
- Title: An Annotated Video Dataset for Computing Video Memorability
- Title(参考訳): ビデオ記憶可能性計算のためのアノテーション付きビデオデータセット
- Authors: Rukiye Savran Kiziltepe and Lorin Sweeney and Mihai Gabriel Constantin
and Faiyaz Doctor and Alba Garcia Seco de Herrera and Claire-Helene Demarty
and Graham Healy and Bogdan Ionescu and Alan F. Smeaton
- Abstract要約: 1,275のユーザは、ビデオの長期記憶と短期記憶の両方を示すために、各ビデオに手動で注釈を付けている。
認識タスクは、過去数分間のビデオで、短期記憶のために、過去24時間から72時間で、長期記憶のために行われた。
このデータセットは、2020年のMediaEvalベンチマークの一部として、Video Memorabilityタスクで使用された。
- 参考スコア(独自算出の注目度): 3.660907225956466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a collection of publicly available links to short form video clips of
an average of 6 seconds duration each, 1,275 users manually annotated each
video multiple times to indicate both long-term and short-term memorability of
the videos. The annotations were gathered as part of an online memory game and
measured a participant's ability to recall having seen the video previously
when shown a collection of videos. The recognition tasks were performed on
videos seen within the previous few minutes for short-term memorability and
within the previous 24 to 72 hours for long-term memorability. Data includes
the reaction times for each recognition of each video. Associated with each
video are text descriptions (captions) as well as a collection of image-level
features applied to 3 frames extracted from each video (start, middle and end).
Video-level features are also provided. The dataset was used in the Video
Memorability task as part of the MediaEval benchmark in 2020.
- Abstract(参考訳): 平均6秒間の短いビデオクリップの公開リンクのコレクションを使って、1,275人のユーザーが手動でビデオに複数回注釈を付け、ビデオの長期記憶力と短期記憶力の両方を示す。
アノテーションはオンラインメモリゲームの一部として収集され、ビデオのコレクションを見せたときにビデオを見たことを思い出す参加者の能力を測定した。
認識タスクは、過去数分以内に見たビデオで短期記憶力、24時間から72時間以内に長期記憶力で実行された。
データには、各ビデオの認識ごとに反応時間が含まれている。
各ビデオにはテキスト記述(キャプチャ)と、各ビデオ(開始、中、終了)から抽出された3つのフレームに適用される画像レベルの特徴の集合が含まれている。
ビデオレベルの機能も備えている。
このデータセットは、2020年のMediaEvalベンチマークの一部として、Video Memorabilityタスクで使用された。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。