論文の概要: Fight Scene Detection for Movie Highlight Generation System
- arxiv url: http://arxiv.org/abs/2406.05152v1
- Date: Tue, 4 Jun 2024 08:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:55:40.733129
- Title: Fight Scene Detection for Movie Highlight Generation System
- Title(参考訳): 映画ハイライト生成システムにおけるファイトシーン検出
- Authors: Aryan Mathur,
- Abstract要約: 我々は,MHGS(Movie Highlight Generation Systems)に使用できる新しいFight Scene Detection(FSD)モデルを提供する。
提案するFSDシステムは,映画シーンの時間的特徴を利用して,戦闘シーンを自動的に識別する。
提案手法の精度は93.5%であり,Hough Forestsによる2D CNNよりも92%高く,精度が65%である3D CNNよりもかなり高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper of a research based project, using Bidirectional Long Short-Term Memory (BiLSTM) networks, we provide a novel Fight Scene Detection (FSD) model which can be used for Movie Highlight Generation Systems (MHGS) based on deep learning and Neural Networks . Movies usually have Fight Scenes to keep the audience amazed. For trailer generation, or any other application of Highlight generation, it is very tidious to first identify all such scenes manually and then compile them to generate a highlight serving the purpose. Our proposed FSD system utilises temporal characteristics of the movie scenes and thus is capable to automatically identify fight scenes. Thereby helping in the effective production of captivating movie highlights. We observe that the proposed solution features 93.5% accuracy and is higher than 2D CNN with Hough Forests which being 92% accurate and is significantly higher than 3D CNN which features an accuracy of 65%.
- Abstract(参考訳): 本稿では,双方向長短期記憶(Bidirectional Long Short-Term Memory, BiLSTM)ネットワークを用いて,深層学習とニューラルネットワークに基づく映画ハイライト生成システム(MHGS)に使用可能なFSD(Fight Scene Detection)モデルを提案する。
映画は通常、観客を驚かせるためにファイトシーンを持っている。
トレーラー・ジェネレーションや、その他のハイライト・ジェネレーションの応用については、まずこれらのシーンを手動で識別し、それらをコンパイルして目的に合うハイライトを生成するのは大変残念である。
提案するFSDシステムは,映画シーンの時間的特徴を利用して,戦闘シーンを自動的に識別する。
これにより、キャプチャング映画のハイライトを効果的に制作するのに役立つ。
提案手法の精度は93.5%であり,Hough Forestsによる2D CNNよりも92%高く,精度が65%である3D CNNよりもかなり高い。
関連論文リスト
- Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Exploring 3D-aware Latent Spaces for Efficiently Learning Numerous Scenes [8.847448988112903]
本研究では,NeRFのスケーリングにより,多くの意味的類似シーンを学習する手法を提案する。
本手法は,1000シーンのトレーニングにおいて,有効メモリコストを44%削減し,実時間コストを86%削減する。
論文 参考訳(メタデータ) (2024-03-18T11:29:43Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Detecting Violence in Video Based on Deep Features Fusion Technique [0.30458514384586394]
本研究では、2つの畳み込みニューラルネットワーク(CNN)の融合技術を用いて暴力を検出する新しい方法を提案する。
提案手法の性能は,検出精度の観点から3つの標準ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-04-15T12:51:20Z) - Movies2Scenes: Using Movie Metadata to Learn Scene Representation [8.708989357658501]
本稿では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には、映画のメタデータを用いて、映画の類似度を定義し、対照的な学習中にそれを使って、ポジティブなシーンペアの検索を制限する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価されたタスクの多種多様なセットにおいて、既存の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-22T03:31:33Z) - Adversarial Scene Reconstruction and Object Detection System for
Assisting Autonomous Vehicle [0.0]
本論文は、暗視のシーンを昼光のような鮮明なシーンに再構成する深層学習モデルを提案する。
提案されたモデルは、シーン再構築の精度87.3%、シーン理解と検出のタスクの精度89.2%を達成した。
論文 参考訳(メタデータ) (2021-10-13T09:06:16Z) - We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos [0.0]
SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
論文 参考訳(メタデータ) (2020-11-22T03:53:40Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。