論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- arxiv url: http://arxiv.org/abs/2203.05711v2
- Date: Mon, 3 Apr 2023 03:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 01:32:47.955095
- Title: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- Title(参考訳): 映画物語の合成:ストーリー理解のためのビデオ言語データセット
- Authors: Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li
- Abstract要約: SYMON(Synopses of Movie Narratives)というビデオ言語ストーリーデータセットを収集,事前処理,公開しています。
SYMONは、人間のクリエーターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
- 参考スコア(独自算出の注目度): 13.52545041750095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances of AI, story understanding remains an open and
under-investigated problem. We collect, preprocess, and publicly release a
video-language story dataset, Synopses of Movie Narratives (SYMON), containing
5,193 video summaries of popular movies and TV series. SYMON captures
naturalistic story-telling videos for human audience made by human creators. As
a prototypical and naturalistic story dataset, SYMON features high coverage of
multimodal story events, abundant mental-state descriptions, and large semantic
gaps between the visual and the textual modalities. We establish benchmarks on
video-text retrieval and zero-shot alignment on movie summary videos, which
showcase the importance of in-domain data in story understanding. With SYMON,
we hope to lay the groundwork for progress in multimodal story understanding.
- Abstract(参考訳): 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセットSYMON(Synopses of Movie Narratives)を収集、前処理、公開する。
SYMONは、人間のクリエイターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
原型的で自然主義的なストーリーデータセットとして、SYMONは多モーダルなストーリーイベント、豊富な精神状態の記述、視覚とテキストのモダリティの間に大きな意味的ギャップを特徴としている。
我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データの重要性を示す。
SYMONでは、マルチモーダルなストーリー理解の進展の基礎を築きたいと考えています。
関連論文リスト
- ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - MoPS: Modular Story Premise Synthesis for Open-Ended Automatic Story Generation [50.01780173691132]
モジュール・ストーリー・プリミゼ・シンセサイザー(MoPS)について紹介する。
MoPSはストーリーの前提をバックグラウンドやペルソナなどのモジュールに分割し、自動設計と生成を行う。
より詳細な評価は、我々の合成された施設が多様性、魅力、完全性、独創性に優れていることを示している。
論文 参考訳(メタデータ) (2024-06-09T08:31:14Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。
これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。
実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-12-02T22:51:51Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。