Fugu-MT 論文翻訳(概要): Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding

論文の概要: Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding

arxiv url: http://arxiv.org/abs/2203.05711v4
Date: Wed, 5 Apr 2023 02:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 16:34:29.478748
Title: Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding
Title（参考訳）: 映画物語の合成:ストーリー理解のためのビデオ言語データセット
Authors: Yidan Sun, Qin Chao, Yangfeng Ji and Boyang Li
Abstract要約: 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を合計869時間収録したビデオ言語ストーリーデータセット『Synopses of Movie Narratives』(SyMoN)をリリースした。 SyMoNは、人間のクリエーターによって作られ、人間のオーディエンスを意図した、自然主義的なストーリーテリングビデオを撮影する。
参考スコア（独自算出の注目度）: 13.52545041750095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SyMoN), containing 5,193 video summaries of popular movies and TV series with a total length of 869 hours. SyMoN captures naturalistic storytelling videos made by human creators and intended for a human audience. As a prototypical and naturalistic story dataset, SyMoN features high coverage of multimodal story events and abundant mental-state descriptions. Its use of storytelling techniques cause cross-domain semantic gaps that provide appropriate challenges to existing models. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data and long-term memory in story understanding. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding.
Abstract（参考訳）: 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。我々は,人気のある映画やテレビシリーズの5,193本の映像要約を収録した映像言語ストーリーデータセットであるsynopses of movie narratives(symon)を収集,前処理し,公開する。 SyMoNは、人間のクリエイターが作った自然主義的なストーリーテリングビデオを撮影する。原型的で自然主義的なストーリーデータセットとして、SyMoNは多モーダルなストーリーイベントと豊富な精神状態の記述をカバーしている。ストーリーテリング技術を使うことは、既存のモデルに適切な課題を与えるクロスドメインなセマンティクスギャップを引き起こす。我々は,映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを構築し,ストーリー理解におけるドメイン内データと長期記憶の重要性を示す。 SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。

関連論文リスト

MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。 The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文参考訳（メタデータ） (2024-11-22T10:25:08Z)
ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。 ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文参考訳（メタデータ） (2024-10-17T07:59:54Z)
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文参考訳（メタデータ） (2024-08-03T05:35:13Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。 M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。 SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文参考訳（メタデータ） (2024-06-18T22:44:50Z)
Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文参考訳（メタデータ） (2024-04-20T13:15:27Z)
Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文参考訳（メタデータ） (2023-02-22T09:04:00Z)
NarraSum: A Large-Scale Dataset for Abstractive Narrative Summarization [26.80378373420446]
NarraSumは大規模な物語要約データセットである。これには122Kの物語文書が含まれており、様々なジャンルの映画やテレビドラマのプロット記述や、それに対応する抽象的な要約から集められている。実験の結果,NarraSumにおける人間と最先端の要約モデルの間には大きなパフォーマンスギャップがあることが判明した。
論文参考訳（メタデータ） (2022-12-02T22:51:51Z)
TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文参考訳（メタデータ） (2021-09-18T05:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。