論文の概要: "Previously on ..." From Recaps to Story Summarization
- arxiv url: http://arxiv.org/abs/2405.11487v1
- Date: Sun, 19 May 2024 09:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:18:28.107104
- Title: "Previously on ..." From Recaps to Story Summarization
- Title(参考訳): 『前述』から『物語要約』へ
- Authors: Aditya Kumar Singh, Dhruv Srivastava, Makarand Tapaswi,
- Abstract要約: テレビエピソードの要約を利用したマルチモーダルストーリー要約を提案する。
ストーリー要約ラベルは、エピソード内の対応するサブストーリーにリキャップショットを合わせることでアンロックされる。
本稿では,将来的なクロスシリーズの一般化を含む,ストーリー要約の徹底的な評価について述べる。
- 参考スコア(独自算出の注目度): 13.311411816150551
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce multimodal story summarization by leveraging TV episode recaps - short video sequences interweaving key story moments from previous episodes to bring viewers up to speed. We propose PlotSnap, a dataset featuring two crime thriller TV shows with rich recaps and long episodes of 40 minutes. Story summarization labels are unlocked by matching recap shots to corresponding sub-stories in the episode. We propose a hierarchical model TaleSumm that processes entire episodes by creating compact shot and dialog representations, and predicts importance scores for each video shot and dialog utterance by enabling interactions between local story groups. Unlike traditional summarization, our method extracts multiple plot points from long videos. We present a thorough evaluation on story summarization, including promising cross-series generalization. TaleSumm also shows good results on classic video summarization benchmarks.
- Abstract(参考訳): 本稿では,テレビエピソードの要約を利用したマルチモーダルストーリーの要約について紹介する。
PlotSnapは、2つの犯罪スリラーテレビ番組と40分間の長いエピソードを収録したデータセットである。
ストーリー要約ラベルは、エピソード内の対応するサブストーリーにリキャップショットを合わせることでアンロックされる。
本稿では,コンパクトなショットとダイアログ表現を作成することでエピソード全体を処理し,ローカルなストーリーグループ間のインタラクションを可能とすることにより,各ビデオショットとダイアログ発話の重要度を予測できる階層型モデルTalamaSummを提案する。
従来の要約とは異なり、長いビデオから複数のプロットポイントを抽出する。
本稿では,将来的なクロスシリーズの一般化を含む,ストーリー要約の徹底的な評価について述べる。
TaleSummは、古典的なビデオ要約ベンチマークでも良い結果を示している。
関連論文リスト
- A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Synopses of Movie Narratives: a Video-Language Dataset for Story
Understanding [13.52545041750095]
我々は、人気映画やテレビシリーズの5,193本のビデオ要約を合計869時間収録したビデオ言語ストーリーデータセット『Synopses of Movie Narratives』(SyMoN)をリリースした。
SyMoNは、人間のクリエーターによって作られ、人間のオーディエンスを意図した、自然主義的なストーリーテリングビデオを撮影する。
論文 参考訳(メタデータ) (2022-03-11T01:45:33Z) - TVRecap: A Dataset for Generating Stories with Character Descriptions [43.198875830024825]
TVRecapはストーリー生成データセットで、短い要約と関連するキャラクターを記述した文書から詳細なテレビ番組のエピソードを再生する。
ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。
論文 参考訳(メタデータ) (2021-09-18T05:02:29Z) - SummScreen: A Dataset for Abstractive Screenplay Summarization [52.56760815805357]
SummScreenは、テレビシリーズトランスクリプトと人間の書かれたリキャップのペアで構成されたデータセットです。
プロットの詳細はしばしば文字対話で間接的に表現され、書き起こしの全体にわたって散らばることがある。
キャラクタはテレビシリーズの基本であるため,2つのエンティティ中心評価指標も提案する。
論文 参考訳(メタデータ) (2021-04-14T19:37:40Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。