論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- arxiv url: http://arxiv.org/abs/2203.05711v1
- Date: Fri, 11 Mar 2022 01:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 19:55:48.977362
- Title: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- Title(参考訳): 映画物語の合成:ストーリー理解のためのビデオ言語データセット
- Authors: Yidan Sun, Qin Chao, Boyang Li
- Abstract要約: 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセット、Synopses of Movie Narratives(SyMoN)をリリースした。
SyMoNは、人間のクリエーターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
- 参考スコア(独自算出の注目度): 4.662993371448238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances of AI, story understanding remains an open and
under-investigated problem. We collect, preprocess, and publicly release a
video-language story dataset, Synopses of Movie Narratives(SyMoN), containing
5,193 video summaries of popular movies and TV series. SyMoN captures
naturalistic storytelling videos for human audience made by human creators, and
has higher story coverage and more frequent mental-state references than
similar video-language story datasets. Differing from most existing video-text
datasets, SyMoN features large semantic gaps between the visual and the textual
modalities due to the prevalence of reporting bias and mental state
descriptions. We establish benchmarks on video-text retrieval and zero-shot
alignment on movie summary videos. With SyMoN, we hope to lay the groundwork
for progress in multimodal story understanding.
- Abstract(参考訳): 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセット、Synopses of Movie Narratives(SyMoN)を収集、前処理、公開している。
SyMoNは、人間のクリエーターによる人間のオーディエンスのための自然主義的なストーリーテリングビデオをキャプチャし、同様のビデオ言語によるストーリーデータセットよりも高いストーリーカバレッジとより頻繁なメンタルステート参照を持つ。
既存のビデオテキストデータセットと違い、SyMoNは、レポートバイアスとメンタルステート記述の頻度により、視覚とテキストのモダリティの間に大きな意味的ギャップがある。
映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを確立する。
SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。
関連論文リスト
- Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [67.03643944475712]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。
これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。
実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-12-02T22:51:51Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - On the hidden treasure of dialog in video question answering [18.16094563534453]
外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-03-26T15:17:01Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。