論文の概要: MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning
- arxiv url: http://arxiv.org/abs/2306.02252v2
- Date: Wed, 14 Jun 2023 10:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:09:40.495805
- Title: MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning
- Title(参考訳): MoviePuzzle:マルチモーダル順序学習による視覚的ナラティブ推論
- Authors: Jianghui Wang, Yuxuan Wang, Dongyan Zhao, Zilong Zheng
- Abstract要約: MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 54.73173491543553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MoviePuzzle, a novel challenge that targets visual narrative
reasoning and holistic movie understanding. Despite the notable progress that
has been witnessed in the realm of video understanding, most prior works fail
to present tasks and models to address holistic video understanding and the
innate visual narrative structures existing in long-form videos. To tackle this
quandary, we put forth MoviePuzzle task that amplifies the temporal feature
learning and structure learning of video models by reshuffling the shot, frame,
and clip layers of movie segments in the presence of video-dialogue
information. We start by establishing a carefully refined dataset based on
MovieNet by dissecting movies into hierarchical layers and randomly permuting
the orders. Besides benchmarking the MoviePuzzle with prior arts on movie
understanding, we devise a Hierarchical Contrastive Movie Clustering (HCMC)
model that considers the underlying structure and visual semantic orders for
movie reordering. Specifically, through a pairwise and contrastive learning
approach, we train models to predict the correct order of each layer. This
equips them with the knack for deciphering the visual narrative structure of
movies and handling the disorder lurking in video data. Experiments show that
our approach outperforms existing state-of-the-art methods on the \MoviePuzzle
benchmark, underscoring its efficacy.
- Abstract(参考訳): 視覚的物語的推論と全体論的映画理解をターゲットとした新しい挑戦であるMoviePuzzleを紹介する。
ビデオ理解の領域で注目すべき進歩にもかかわらず、ほとんどの先行作品は、長い形式のビデオに存在する総合的なビデオ理解と生来のビジュアルナラティブ構造に対処するためのタスクやモデルの提供に失敗している。
そこで本研究では,映像対話情報の存在下で映画セグメントの撮影,フレーム,クリップ層を再分割することにより,映像モデルの時間的特徴学習と構造学習を増幅するmoviepuzzleタスクを行った。
まず,映画を階層層に分割し,ランダムに順序を並べ替えることで,movienetに基づく精巧なデータセットを構築する。
映画理解の先行技術を用いて映画パズルをベンチマークすると同時に,映画再注文の基盤構造と視覚的意味的順序を考慮した階層的コントラスト映画クラスタリング(hcmc)モデルを考案する。
具体的には、ペアワイズで対照的な学習アプローチを通じて、各層の正しい順序を予測するためにモデルを訓練する。
これにより、映画の視覚的物語構造を解読し、ビデオデータに潜む障害を処理するためのネックが装備される。
実験により,本手法は,既存の<MoviePuzzle>ベンチマークよりも高い性能を示し,その有効性を裏付ける。
関連論文リスト
- DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T17:56:11Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。