論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- arxiv url: http://arxiv.org/abs/2203.05711v4
- Date: Wed, 5 Apr 2023 02:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 16:34:29.478748
- Title: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- Title(参考訳): 映画物語の合成:ストーリー理解のためのビデオ言語データセット
- Authors: Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li
- Abstract要約: 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を合計869時間収録したビデオ言語ストーリーデータセット『Synopses of Movie Narratives』(SyMoN)をリリースした。
SyMoNは、人間のクリエーターによって作られ、人間のオーディエンスを意図した、自然主義的なストーリーテリングビデオを撮影する。
- 参考スコア(独自算出の注目度): 13.52545041750095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances of AI, story understanding remains an open and
under-investigated problem. We collect, preprocess, and publicly release a
video-language story dataset, Synopses of Movie Narratives (SyMoN), containing
5,193 video summaries of popular movies and TV series with a total length of
869 hours. SyMoN captures naturalistic storytelling videos made by human
creators and intended for a human audience. As a prototypical and naturalistic
story dataset, SyMoN features high coverage of multimodal story events and
abundant mental-state descriptions. Its use of storytelling techniques cause
cross-domain semantic gaps that provide appropriate challenges to existing
models. We establish benchmarks on video-text retrieval and zero-shot alignment
on movie summary videos, which showcase the importance of in-domain data and
long-term memory in story understanding. With SyMoN, we hope to lay the
groundwork for progress in multimodal story understanding.
- Abstract(参考訳): 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は,人気のある映画やテレビシリーズの5,193本の映像要約を収録した映像言語ストーリーデータセットであるsynopses of movie narratives(symon)を収集,前処理し,公開する。
SyMoNは、人間のクリエイターが作った自然主義的なストーリーテリングビデオを撮影する。
原型的で自然主義的なストーリーデータセットとして、SyMoNは多モーダルなストーリーイベントと豊富な精神状態の記述をカバーしている。
ストーリーテリング技術を使うことは、既存のモデルに適切な課題を与えるクロスドメインなセマンティクスギャップを引き起こす。
我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データと長期記憶の重要性を示す。
SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。
関連論文リスト
- Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [67.03643944475712]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。
これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。
実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-12-02T22:51:51Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - On the hidden treasure of dialog in video question answering [18.16094563534453]
外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-03-26T15:17:01Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。