論文の概要: AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary
Detection
- arxiv url: http://arxiv.org/abs/2304.06116v1
- Date: Wed, 12 Apr 2023 19:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:27:40.134198
- Title: AutoShot: A Short Video Dataset and State-of-the-Art Shot Boundary
Detection
- Title(参考訳): autoshot: 短いビデオデータセットと最先端のショット境界検出
- Authors: Wentao Zhu, Yufang Huang, Xiufeng Xie, Wenxian Liu, Jincan Deng,
Debing Zhang, Zhangyang Wang, Ji Liu
- Abstract要約: 我々はSHOTという新しい公開ショートビデオsHot bOundary deTectionデータセットをリリースする。
SHOTは、853の完全なショートビデオと11,606のショットアノテーションで構成され、2,716の高品質なショット境界アノテーションが200のテストビデオに含まれている。
提案手法はAutoShotと呼ばれ,従来の最先端手法よりもF1スコアが高い。
- 参考スコア(独自算出の注目度): 70.99025467739715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The short-form videos have explosive popularity and have dominated the new
social media trends. Prevailing short-video platforms,~\textit{e.g.}, Kuaishou
(Kwai), TikTok, Instagram Reels, and YouTube Shorts, have changed the way we
consume and create content. For video content creation and understanding, the
shot boundary detection (SBD) is one of the most essential components in
various scenarios. In this work, we release a new public Short video sHot
bOundary deTection dataset, named SHOT, consisting of 853 complete short videos
and 11,606 shot annotations, with 2,716 high quality shot boundary annotations
in 200 test videos. Leveraging this new data wealth, we propose to optimize the
model design for video SBD, by conducting neural architecture search in a
search space encapsulating various advanced 3D ConvNets and Transformers. Our
proposed approach, named AutoShot, achieves higher F1 scores than previous
state-of-the-art approaches, e.g., outperforming TransNetV2 by 4.2%, when being
derived and evaluated on our newly constructed SHOT dataset. Moreover, to
validate the generalizability of the AutoShot architecture, we directly
evaluate it on another three public datasets: ClipShots, BBC and RAI, and the
F1 scores of AutoShot outperform previous state-of-the-art approaches by 1.1%,
0.9% and 1.2%, respectively. The SHOT dataset and code can be found in
https://github.com/wentaozhu/AutoShot.git .
- Abstract(参考訳): ショートフォームビデオは爆発的に人気を博し、新しいソーシャルメディアのトレンドを支配した。
一般的なショートビデオプラットフォームである~\textit{e.g.}、Kuaishou (Kwai)、TikTok、Instagram Reels、YouTube Shortsは、コンテンツの消費と作成方法を変えた。
映像コンテンツの作成と理解のために、ショット境界検出(SBD)は様々なシナリオにおいて最も重要なコンポーネントの1つである。
本研究では,853の完全なショートビデオと11,606のショットアノテーションと,200のテストビデオに2,716の高品質なショット境界アノテーションを備えるSHOTという,新しい公開Short Video sHot bOundary deTectionデータセットをリリースする。
このデータ富を生かして、様々な高度な3D ConvNetとTransformerをカプセル化した検索空間でニューラルアーキテクチャ検索を行うことにより、ビデオSBDのモデル設計を最適化することを提案する。
提案手法であるAutoShotは,新たに構築したSHOTデータセットから導出および評価を行う際に,従来の最先端アプローチよりも高いF1スコアを達成する。
さらに、AutoShotアーキテクチャの一般化性を検証するために、ClipShots、BBC、RAIの3つの公開データセットと、AutoShotのF1スコアがそれぞれ1.1%、0.9%、および1.2%の先行技術アプローチを上回っていることを直接評価した。
SHOTデータセットとコードはhttps://github.com/wentaozhu/AutoShot.gitで見ることができる。
関連論文リスト
- Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。