論文の概要: Overview of MediaEval 2020 Predicting Media Memorability Task: What
Makes a Video Memorable?
- arxiv url: http://arxiv.org/abs/2012.15650v1
- Date: Thu, 31 Dec 2020 15:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 22:43:40.184694
- Title: Overview of MediaEval 2020 Predicting Media Memorability Task: What
Makes a Video Memorable?
- Title(参考訳): MediaEval 2020におけるメディアの記憶可能性の予測: ビデオの記憶に残るものは何か?
- Authors: Alba Garc\'ia Seco De Herrera and Rukiye Savran Kiziltepe and Jon
Chamberlain and Mihai Gabriel Constantin and Claire-H\'el\`ene Demarty and
Faiyaz Doctor and Bogdan Ionescu and Alan F. Smeaton
- Abstract要約: 本稿では,MediaEval 2020 textitPredicting Media Memorabilityタスクについて述べる。
短期的および長期的ビデオ記憶可能性(VM)の予測は依然として難しい課題である。
今年のビデオは、アクションリッチなビデオコンテンツを含む、TRECVid 2019 Video-to-Textデータセットのサブセットだ。
- 参考スコア(独自算出の注目度): 6.179004622699381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the MediaEval 2020 \textit{Predicting Media
Memorability} task. After first being proposed at MediaEval 2018, the
Predicting Media Memorability task is in its 3rd edition this year, as the
prediction of short-term and long-term video memorability (VM) remains a
challenging task. In 2020, the format remained the same as in previous
editions. This year the videos are a subset of the TRECVid 2019 Video-to-Text
dataset, containing more action rich video content as compared with the 2019
task. In this paper a description of some aspects of this task is provided,
including its main characteristics, a description of the collection, the ground
truth dataset, evaluation metrics and the requirements for participants' run
submissions.
- Abstract(参考訳): 本稿では,MediaEval 2020 \textit{Predicting Media Memorability}タスクについて述べる。
MediaEval 2018で最初に提案された後、予測メディア記憶可能性(Predicting Media Memorability)タスクは今年第3版で、短期的および長期的ビデオ記憶可能性(VM)の予測は依然として難しい課題である。
2020年、以前の版と同じフォーマットのままとなった。
今年のビデオは、TRECVid 2019 Video-to-Textデータセットのサブセットであり、2019年のタスクと比較してアクションリッチなビデオコンテンツを含んでいる。
本稿では,本課題の諸側面について述べる。主な特徴,コレクションの記述,基礎的真実データセット,評価指標,参加者の実行要求などである。
関連論文リスト
- V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - An overview on the evaluated video retrieval tasks at TRECVID 2022 [3.2136632136953263]
TRECビデオ検索評価(TREC Video Retrieval Evaluation, TRECVID)は、TREC方式のビデオ解析および検索評価である。
本稿では,タスク,データセット,評価フレームワーク,メトリクス,高レベルな結果の概要を紹介する。
論文 参考訳(メタデータ) (2023-06-22T15:15:13Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Overview of The MediaEval 2022 Predicting Video Memorability Task [5.032429663272684]
本稿では,MediaEval2022の一部として,Predicting Video Memorability Taskの第5版について述べる。
昨年と同様、一般化を容易にするために2つのデータセットが提供されている。
TRECVid 2019 Video-to-TextデータセットをVideoMemデータセットに置き換えました。
完全発生脳波(EEG)に基づく予測サブタスクが導入された。
論文 参考訳(メタデータ) (2022-12-13T12:02:21Z) - Predicting Media Memorability: Comparing Visual, Textual and Auditory
Features [1.8506048493564673]
本稿では,メディアEval 2021における予測メディア記憶可能性タスクへのアプローチについて述べる。
ビデオの記憶可能性を自動的に予測するタスクを設定することで,メディアの記憶可能性の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2021-12-15T08:42:49Z) - Overview of The MediaEval 2021 Predicting Media Memorability Task [4.986121006088218]
MediaEval 2021 Predicting Media Memorabilitytaskは今年の第4版だ。
タスクの主な側面を概説し、データセット、評価指標、参加者の提出要求について説明する。
論文 参考訳(メタデータ) (2021-12-11T13:30:18Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Leveraging Audio Gestalt to Predict Media Memorability [1.8506048493564673]
記憶力は、空白に何をもたらすか、そして心の奥深くに何をもたらすかを決定する。
MediaEval 2020のPredicting Media Memorabilityタスクは、ビデオの記憶可能性を自動的に予測するタスクを設定することによって、メディアの記憶可能性の問題に対処することを目指しています。
我々のアプローチは、視覚的、意味的、聴覚的特徴を組み合わせたマルチモーダル深層学習に基づくレイトフュージョンである。
論文 参考訳(メタデータ) (2020-12-31T14:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。