論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- arxiv url: http://arxiv.org/abs/2203.05711v1
- Date: Fri, 11 Mar 2022 01:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 19:55:48.977362
- Title: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- Title(参考訳): 映画物語の合成:ストーリー理解のためのビデオ言語データセット
- Authors: Yidan Sun, Qin Chao, Boyang Li
- Abstract要約: 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセット、Synopses of Movie Narratives(SyMoN)をリリースした。
SyMoNは、人間のクリエーターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
- 参考スコア(独自算出の注目度): 4.662993371448238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances of AI, story understanding remains an open and
under-investigated problem. We collect, preprocess, and publicly release a
video-language story dataset, Synopses of Movie Narratives(SyMoN), containing
5,193 video summaries of popular movies and TV series. SyMoN captures
naturalistic storytelling videos for human audience made by human creators, and
has higher story coverage and more frequent mental-state references than
similar video-language story datasets. Differing from most existing video-text
datasets, SyMoN features large semantic gaps between the visual and the textual
modalities due to the prevalence of reporting bias and mental state
descriptions. We establish benchmarks on video-text retrieval and zero-shot
alignment on movie summary videos. With SyMoN, we hope to lay the groundwork
for progress in multimodal story understanding.
- Abstract(参考訳): 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセット、Synopses of Movie Narratives(SyMoN)を収集、前処理、公開している。
SyMoNは、人間のクリエーターによる人間のオーディエンスのための自然主義的なストーリーテリングビデオをキャプチャし、同様のビデオ言語によるストーリーデータセットよりも高いストーリーカバレッジとより頻繁なメンタルステート参照を持つ。
既存のビデオテキストデータセットと違い、SyMoNは、レポートバイアスとメンタルステート記述の頻度により、視覚とテキストのモダリティの間に大きな意味的ギャップがある。
映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを確立する。
SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。
これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。
実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-12-02T22:51:51Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。