論文の概要: MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning
- arxiv url: http://arxiv.org/abs/2306.02252v3
- Date: Mon, 02 Jun 2025 16:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.297443
- Title: MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning
- Title(参考訳): MoviePuzzle:マルチモーダル順序学習による視覚的ナラティブ推論
- Authors: Jianghui Wang, Yuxuan Wang, Dongyan Zhao, Zilong Zheng,
- Abstract要約: MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 47.59806301773499
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce MoviePuzzle, a novel challenge that targets visual narrative reasoning and holistic movie understanding. Despite the notable progress that has been witnessed in the realm of video understanding, most prior works fail to present tasks and models to address holistic video understanding and the innate visual narrative structures existing in long-form videos. To tackle this quandary, we put forth MoviePuzzle task that amplifies the temporal feature learning and structure learning of video models by reshuffling the shot, frame, and clip layers of movie segments in the presence of video-dialogue information. We start by establishing a carefully refined dataset based on MovieNet by dissecting movies into hierarchical layers and randomly permuting the orders. Besides benchmarking the MoviePuzzle with prior arts on movie understanding, we devise a Hierarchical Contrastive Movie Clustering (HCMC) model that considers the underlying structure and visual semantic orders for movie reordering. Specifically, through a pairwise and contrastive learning approach, we train models to predict the correct order of each layer. This equips them with the knack for deciphering the visual narrative structure of movies and handling the disorder lurking in video data. Experiments show that our approach outperforms existing state-of-the-art methods on the \MoviePuzzle benchmark, underscoring its efficacy.
- Abstract(参考訳): 我々は,視覚的物語推論と全体論的映画理解をターゲットとした,新しい挑戦であるMoviePuzzleを紹介する。
ビデオ理解の領域で見られる顕著な進歩にもかかわらず、ほとんどの先行研究は、全体論的なビデオ理解と、長大なビデオに存在する自然的視覚的物語構造に対処するためのタスクやモデルを提示することができない。
この課題に対処するため,ビデオ対話情報の存在下で映像セグメントのショット,フレーム,クリップ層をリシャッフルすることにより,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
まず、フィルムを階層的な層に分割し、ランダムに順序を変更することによって、MovieNetに基づいた注意深く洗練されたデータセットを確立する。
The MoviePuzzle with pre art on movie understanding, we developed a Hierarchical Contrastive Movie Clustering (HCMC) model that consider the underlying structure and visual semantic order for movie reordering。
具体的には、ペアワイズで対照的な学習アプローチを通じて、各層の正しい順序を予測するためにモデルを訓練する。
これにより、映画の視覚的物語構造を解読し、ビデオデータに潜む障害を処理するためのネックが装備される。
実験により,本手法は,既存の<MoviePuzzle>ベンチマークの手法よりも優れた性能を示し,その効果を実証した。
関連論文リスト
- DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T17:56:11Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。