Fugu-MT 論文翻訳(概要): MovieCuts: A New Dataset and Benchmark for Cut Type Recognition

論文の概要: MovieCuts: A New Dataset and Benchmark for Cut Type Recognition

arxiv url: http://arxiv.org/abs/2109.05569v1
Date: Sun, 12 Sep 2021 17:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 10:02:51.227593
Title: MovieCuts: A New Dataset and Benchmark for Cut Type Recognition
Title（参考訳）: MovieCuts: カット型認識のための新しいデータセットとベンチマーク
Authors: Alejandro Pardo, Fabian Caba Heilbron, Juan Le\'on Alc\'azar, Ali Thabet, Bernard Ghanem
Abstract要約: 本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。 10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセット、MovieCutsを構築した。我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。
参考スコア（独自算出の注目度）: 114.57935905189416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding movies and their structural patterns is a crucial task to decode the craft of video editing. While previous works have developed tools for general analysis such as detecting characters or recognizing cinematography properties at the shot level, less effort has been devoted to understanding the most basic video edit, the Cut. This paper introduces the cut type recognition task, which requires modeling of multi-modal information. To ignite research in the new task, we construct a large-scale dataset called MovieCuts, which contains more than 170K videoclips labeled among ten cut types. We benchmark a series of audio-visual approaches, including some that deal with the problem's multi-modal and multi-label nature. Our best model achieves 45.7% mAP, which suggests that the task is challenging and that attaining highly accurate cut type recognition is an open research problem.
Abstract（参考訳）: 映画とその構造パターンを理解することは、ビデオ編集の工芸を解読するための重要な課題である。以前の作品は、文字の検出や撮影レベルの撮影特性の認識といった一般的な分析ツールを開発したが、最も基本的なビデオ編集であるthe cutの理解に費やされる労力は少ない。本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。新しいタスクの研究に火をつけるために,10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセットであるMovieCutsを構築した。我々は、この問題のマルチモーダルおよびマルチラベルの性質を扱うものを含む、一連のオーディオ視覚アプローチをベンチマークする。我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。

関連論文リスト

Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。 VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。 AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文参考訳（メタデータ） (2024-12-12T17:59:28Z)
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。 218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文参考訳（メタデータ） (2024-10-15T13:56:34Z)
A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文参考訳（メタデータ） (2024-07-20T03:53:32Z)
Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文参考訳（メタデータ） (2023-07-10T15:47:13Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文参考訳（メタデータ） (2022-07-20T10:53:48Z)
Learning to Cut by Watching Movies [114.57935905189416]
本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
論文参考訳（メタデータ） (2021-08-09T18:37:17Z)
TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文参考訳（メタデータ） (2021-06-21T15:08:08Z)
Highlight Timestamp Detection Model for Comedy Videos via Multimodal Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文参考訳（メタデータ） (2021-05-28T08:39:19Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。