論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- arxiv url: http://arxiv.org/abs/2203.05711v2
- Date: Mon, 3 Apr 2023 03:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 01:32:47.955095
- Title: Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding
- Title(参考訳): 映画物語の合成:ストーリー理解のためのビデオ言語データセット
- Authors: Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li
- Abstract要約: SYMON(Synopses of Movie Narratives)というビデオ言語ストーリーデータセットを収集,事前処理,公開しています。
SYMONは、人間のクリエーターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
- 参考スコア(独自算出の注目度): 13.52545041750095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances of AI, story understanding remains an open and
under-investigated problem. We collect, preprocess, and publicly release a
video-language story dataset, Synopses of Movie Narratives (SYMON), containing
5,193 video summaries of popular movies and TV series. SYMON captures
naturalistic story-telling videos for human audience made by human creators. As
a prototypical and naturalistic story dataset, SYMON features high coverage of
multimodal story events, abundant mental-state descriptions, and large semantic
gaps between the visual and the textual modalities. We establish benchmarks on
video-text retrieval and zero-shot alignment on movie summary videos, which
showcase the importance of in-domain data in story understanding. With SYMON,
we hope to lay the groundwork for progress in multimodal story understanding.
- Abstract(参考訳): 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセットSYMON(Synopses of Movie Narratives)を収集、前処理、公開する。
SYMONは、人間のクリエイターが作った人間のオーディエンスのための自然主義的なストーリーテリングビデオを撮影する。
原型的で自然主義的なストーリーデータセットとして、SYMONは多モーダルなストーリーイベント、豊富な精神状態の記述、視覚とテキストのモダリティの間に大きな意味的ギャップを特徴としている。
我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データの重要性を示す。
SYMONでは、マルチモーダルなストーリー理解の進展の基礎を築きたいと考えています。
関連論文リスト
- Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
大規模なバイリンガル映画ナレーションデータセットMovie101v2を開発した。
映画ナレーションの達成に欠かせない課題を考慮し、長期的な目標を3段階に分けた。
以上の結果から,映画ナレーション生成の達成は,徹底的な研究を必要とする魅力的な目標であることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。
これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。
実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-12-02T22:51:51Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - On the hidden treasure of dialog in video question answering [18.16094563534453]
外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-03-26T15:17:01Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。