論文の概要: A Local-to-Global Approach to Multi-modal Movie Scene Segmentation
- arxiv url: http://arxiv.org/abs/2004.02678v3
- Date: Tue, 28 Apr 2020 14:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:31:20.073682
- Title: A Local-to-Global Approach to Multi-modal Movie Scene Segmentation
- Title(参考訳): マルチモーダル映画シーンセグメンテーションへの地域間アプローチ
- Authors: Anyi Rao, Linning Xu, Yu Xiong, Guodong Xu, Qingqiu Huang, Bolei Zhou,
Dahua Lin
- Abstract要約: 我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 95.34033481442353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene, as the crucial unit of storytelling in movies, contains complex
activities of actors and their interactions in a physical environment.
Identifying the composition of scenes serves as a critical step towards
semantic understanding of movies. This is very challenging -- compared to the
videos studied in conventional vision problems, e.g. action recognition, as
scenes in movies usually contain much richer temporal structures and more
complex semantic information. Towards this goal, we scale up the scene
segmentation task by building a large-scale video dataset MovieScenes, which
contains 21K annotated scene segments from 150 movies. We further propose a
local-to-global scene segmentation framework, which integrates multi-modal
information across three levels, i.e. clip, segment, and movie. This framework
is able to distill complex semantics from hierarchical temporal structures over
a long movie, providing top-down guidance for scene segmentation. Our
experiments show that the proposed network is able to segment a movie into
scenes with high accuracy, consistently outperforming previous methods. We also
found that pretraining on our MovieScenes can bring significant improvements to
the existing approaches.
- Abstract(参考訳): 映画におけるストーリーテリングの重要な単位であるシーンは、アクターとその物理的環境における相互作用の複雑な活動を含んでいる。
シーンの構成を特定することは、映画のセマンティック理解への重要なステップとなる。
これは、例えばアクション認識のような従来の視覚問題で研究されたビデオと比較して、通常映画のシーンはよりリッチな時間構造とより複雑な意味情報を含んでいるため、非常に難しい。
この目的に向けて,150本の映画から21kの注釈付きシーンセグメンテーションを含む大規模映像データセットsceneを構築し,シーンセグメンテーションタスクをスケールアップする。
さらに,クリップ,セグメンテーション,映画といった3つのレベルにまたがるマルチモーダル情報を統合した,グローバルシーンセグメンテーションフレームワークを提案する。
このフレームワークは、長い映画上で階層的な時間構造から複雑な意味論を抽出し、シーンのセグメンテーションのためのトップダウンガイダンスを提供する。
実験の結果,提案ネットワークは映画を高い精度でシーンに分割可能であり,従来手法に匹敵する性能を示した。
また、MovieScenesでの事前トレーニングが既存のアプローチに大きな改善をもたらすこともわかりました。
関連論文リスト
- Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Movies2Scenes: Using Movie Metadata to Learn Scene Representation [8.708989357658501]
本稿では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には、映画のメタデータを用いて、映画の類似度を定義し、対照的な学習中にそれを使って、ポジティブなシーンペアの検索を制限する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価されたタスクの多種多様なセットにおいて、既存の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-22T03:31:33Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。