Fugu-MT 論文翻訳(概要): A Unified Framework for Shot Type Classification Based on Subject Centric Lens

論文の概要: A Unified Framework for Shot Type Classification Based on Subject Centric Lens

arxiv url: http://arxiv.org/abs/2008.03548v1
Date: Sat, 8 Aug 2020 15:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 11:45:44.444223
Title: A Unified Framework for Shot Type Classification Based on Subject Centric Lens
Title（参考訳）: 被写体中心レンズに基づくショット型分類の統一的枠組み
Authors: Anyi Rao, Jiaze Wang, Linning Xu, Xuekun Jiang, Qingqiu Huang, Bolei Zhou, Dahua Lin
Abstract要約: 主観的誘導ネットワーク(SGNet)を用いたショット型認識のための学習フレームワークを提案する。 SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のための別々のガイダンスマップとして機能する。大規模なデータセットであるMovieShotsを構築し、7Kフィルムトレーラーから46K枚の写真と、それらのスケールとムーブメントのアノテーションを含む。
参考スコア（独自算出の注目度）: 89.26211834443558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Shots are key narrative elements of various videos, e.g. movies, TV series, and user-generated videos that are thriving over the Internet. The types of shots greatly influence how the underlying ideas, emotions, and messages are expressed. The technique to analyze shot types is important to the understanding of videos, which has seen increasing demand in real-world applications in this era. Classifying shot type is challenging due to the additional information required beyond the video content, such as the spatial composition of a frame and camera movement. To address these issues, we propose a learning framework Subject Guidance Network (SGNet) for shot type recognition. SGNet separates the subject and background of a shot into two streams, serving as separate guidance maps for scale and movement type classification respectively. To facilitate shot type analysis and model evaluations, we build a large-scale dataset MovieShots, which contains 46K shots from 7K movie trailers with annotations of their scale and movement types. Experiments show that our framework is able to recognize these two attributes of shot accurately, outperforming all the previous methods.
Abstract（参考訳）: ショットは、映画、テレビシリーズ、インターネット上で繁栄しているユーザー生成ビデオなど、様々なビデオの重要な物語要素である。ショットの種類は、基本的なアイデア、感情、メッセージの表現方法に大きな影響を与えます。ショットタイプを解析する技術は、ビデオの理解にとって重要である。ショットタイプの分類は、フレームの空間構成やカメラの動きなど、ビデオコンテンツを超えた追加情報を必要とするため困難である。これらの課題に対処するために,ショット型認識のための学習フレームワークであるSGNetを提案する。 SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のためのガイダンスマップとして機能する。撮影型分析とモデル評価を容易にするために,7k映画トレーラーの46kショットを含む大規模データセットmovieshotsを構築した。実験により,本フレームワークはこれらの2つの属性を正確に認識でき,従来の手法よりも優れていた。

関連論文リスト

Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。 CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文参考訳（メタデータ） (2025-04-21T18:34:57Z)
Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。 PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文参考訳（メタデータ） (2025-04-17T17:59:57Z)
Can video generation replace cinematographers? Research on the cinematic language of generated video [31.0131670022777]
本稿では,テキスト・ツー・ビデオ(T2V)モデルにおける撮影制御を改善するための3つのアプローチを提案する。まず,20のサブカテゴリ,ショットフレーミング,ショットアングル,カメラの動きを網羅した,微妙な注釈付き映画言語データセットを紹介する。第二に、カメラディフ(CameraDiff)は、ロラを精度よく安定した撮影制御に利用し、フレキシブルショット生成を確実にする。第3に,撮影アライメントの評価とマルチショット合成のガイドを目的としたCameraCLIPを提案する。
論文参考訳（メタデータ） (2024-12-16T09:02:24Z)
MSG score: A Comprehensive Evaluation for Multi-Scene Video Generation [0.0]
本稿では,連続シナリオに基づくマルチシーンビデオの生成に必要なメトリクスについて述べる。ビデオ生成では、単一の画像とは異なり、フレーム間の文字の動きは歪みや意図しない変化のような潜在的な問題を引き起こす。本稿では,このプロセスを自動化するスコアベース評価ベンチマークを提案し,これらの複雑さをより客観的かつ効率的に評価する。
論文参考訳（メタデータ） (2024-11-28T13:11:50Z)
Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization [2.31529887566247]
本稿では,映像の要約とキャプションを促進するために,多言語視覚モデル(LLVM)のファミリーを提案する。 Shotluck Holmes は Shot2Story ビデオキャプションと要約タスクの最先端結果よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-05-31T07:30:24Z)
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文参考訳（メタデータ） (2024-01-18T13:23:51Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。 VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文参考訳（メタデータ） (2023-05-23T10:26:42Z)
Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文参考訳（メタデータ） (2022-05-12T06:33:24Z)
Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。 Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6～9%向上させた。
論文参考訳（メタデータ） (2022-03-24T18:15:12Z)
TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文参考訳（メタデータ） (2021-06-21T15:08:08Z)
Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文参考訳（メタデータ） (2021-05-11T07:18:57Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。