論文の概要: A Unified Framework for Shot Type Classification Based on Subject
Centric Lens
- arxiv url: http://arxiv.org/abs/2008.03548v1
- Date: Sat, 8 Aug 2020 15:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:45:44.444223
- Title: A Unified Framework for Shot Type Classification Based on Subject
Centric Lens
- Title(参考訳): 被写体中心レンズに基づくショット型分類の統一的枠組み
- Authors: Anyi Rao, Jiaze Wang, Linning Xu, Xuekun Jiang, Qingqiu Huang, Bolei
Zhou, Dahua Lin
- Abstract要約: 主観的誘導ネットワーク(SGNet)を用いたショット型認識のための学習フレームワークを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のための別々のガイダンスマップとして機能する。
大規模なデータセットであるMovieShotsを構築し、7Kフィルムトレーラーから46K枚の写真と、それらのスケールとムーブメントのアノテーションを含む。
- 参考スコア(独自算出の注目度): 89.26211834443558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shots are key narrative elements of various videos, e.g. movies, TV series,
and user-generated videos that are thriving over the Internet. The types of
shots greatly influence how the underlying ideas, emotions, and messages are
expressed. The technique to analyze shot types is important to the
understanding of videos, which has seen increasing demand in real-world
applications in this era. Classifying shot type is challenging due to the
additional information required beyond the video content, such as the spatial
composition of a frame and camera movement. To address these issues, we propose
a learning framework Subject Guidance Network (SGNet) for shot type
recognition. SGNet separates the subject and background of a shot into two
streams, serving as separate guidance maps for scale and movement type
classification respectively. To facilitate shot type analysis and model
evaluations, we build a large-scale dataset MovieShots, which contains 46K
shots from 7K movie trailers with annotations of their scale and movement
types. Experiments show that our framework is able to recognize these two
attributes of shot accurately, outperforming all the previous methods.
- Abstract(参考訳): ショットは、映画、テレビシリーズ、インターネット上で繁栄しているユーザー生成ビデオなど、様々なビデオの重要な物語要素である。
ショットの種類は、基本的なアイデア、感情、メッセージの表現方法に大きな影響を与えます。
ショットタイプを解析する技術は、ビデオの理解にとって重要である。
ショットタイプの分類は、フレームの空間構成やカメラの動きなど、ビデオコンテンツを超えた追加情報を必要とするため困難である。
これらの課題に対処するために,ショット型認識のための学習フレームワークであるSGNetを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のためのガイダンスマップとして機能する。
撮影型分析とモデル評価を容易にするために,7k映画トレーラーの46kショットを含む大規模データセットmovieshotsを構築した。
実験により,本フレームワークはこれらの2つの属性を正確に認識でき,従来の手法よりも優れていた。
関連論文リスト
- Can video generation replace cinematographers? Research on the cinematic language of generated video [31.0131670022777]
本稿では,制御可能な映像言語を生成するためのT2Vモデルの能力を高めるための3倍のアプローチを提案する。
ショットフレーミング、アングル、カメラの動きを含む映画言語データセットを導入し、様々な映画スタイルを学習できるようにする。
次に、提案したデータセットに基づいて微調整されたモデルであるCameraCLIPを紹介する。
最後に,コスト誘導型動的LoRA合成法であるCLIPLoRAを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:02:24Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - MSG score: A Comprehensive Evaluation for Multi-Scene Video Generation [0.0]
本稿では,連続シナリオに基づくマルチシーンビデオの生成に必要なメトリクスについて述べる。
ビデオ生成では、単一の画像とは異なり、フレーム間の文字の動きは歪みや意図しない変化のような潜在的な問題を引き起こす。
本稿では,このプロセスを自動化するスコアベース評価ベンチマークを提案し,これらの複雑さをより客観的かつ効率的に評価する。
論文 参考訳(メタデータ) (2024-11-28T13:11:50Z) - Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization [2.31529887566247]
本稿では,映像の要約とキャプションを促進するために,多言語視覚モデル(LLVM)のファミリーを提案する。
Shotluck Holmes は Shot2Story ビデオキャプションと要約タスクの最先端結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-31T07:30:24Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。