論文の概要: A Unified Framework for Shot Type Classification Based on Subject
Centric Lens
- arxiv url: http://arxiv.org/abs/2008.03548v1
- Date: Sat, 8 Aug 2020 15:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:45:44.444223
- Title: A Unified Framework for Shot Type Classification Based on Subject
Centric Lens
- Title(参考訳): 被写体中心レンズに基づくショット型分類の統一的枠組み
- Authors: Anyi Rao, Jiaze Wang, Linning Xu, Xuekun Jiang, Qingqiu Huang, Bolei
Zhou, Dahua Lin
- Abstract要約: 主観的誘導ネットワーク(SGNet)を用いたショット型認識のための学習フレームワークを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のための別々のガイダンスマップとして機能する。
大規模なデータセットであるMovieShotsを構築し、7Kフィルムトレーラーから46K枚の写真と、それらのスケールとムーブメントのアノテーションを含む。
- 参考スコア(独自算出の注目度): 89.26211834443558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shots are key narrative elements of various videos, e.g. movies, TV series,
and user-generated videos that are thriving over the Internet. The types of
shots greatly influence how the underlying ideas, emotions, and messages are
expressed. The technique to analyze shot types is important to the
understanding of videos, which has seen increasing demand in real-world
applications in this era. Classifying shot type is challenging due to the
additional information required beyond the video content, such as the spatial
composition of a frame and camera movement. To address these issues, we propose
a learning framework Subject Guidance Network (SGNet) for shot type
recognition. SGNet separates the subject and background of a shot into two
streams, serving as separate guidance maps for scale and movement type
classification respectively. To facilitate shot type analysis and model
evaluations, we build a large-scale dataset MovieShots, which contains 46K
shots from 7K movie trailers with annotations of their scale and movement
types. Experiments show that our framework is able to recognize these two
attributes of shot accurately, outperforming all the previous methods.
- Abstract(参考訳): ショットは、映画、テレビシリーズ、インターネット上で繁栄しているユーザー生成ビデオなど、様々なビデオの重要な物語要素である。
ショットの種類は、基本的なアイデア、感情、メッセージの表現方法に大きな影響を与えます。
ショットタイプを解析する技術は、ビデオの理解にとって重要である。
ショットタイプの分類は、フレームの空間構成やカメラの動きなど、ビデオコンテンツを超えた追加情報を必要とするため困難である。
これらの課題に対処するために,ショット型認識のための学習フレームワークであるSGNetを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のためのガイダンスマップとして機能する。
撮影型分析とモデル評価を容易にするために,7k映画トレーラーの46kショットを含む大規模データセットmovieshotsを構築した。
実験により,本フレームワークはこれらの2つの属性を正確に認識でき,従来の手法よりも優れていた。
関連論文リスト
- Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization [2.31529887566247]
本稿では,映像の要約とキャプションを促進するために,多言語視覚モデル(LLVM)のファミリーを提案する。
Shotluck Holmes は Shot2Story ビデオキャプションと要約タスクの最先端結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-31T07:30:24Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。