論文の概要: SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding
- arxiv url: http://arxiv.org/abs/2504.21435v1
- Date: Wed, 30 Apr 2025 08:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:41:05.625185
- Title: SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding
- Title(参考訳): SeriesBench: ナラティブ駆動ドラマシリーズ理解のためのベンチマーク
- Authors: Chenkai Zhang, Yiming Lei, Zeming Liu, Haitao Leng, ShaoGuo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang,
- Abstract要約: textbfSeriesBenchは、105個の注意深くキュレートされた物語駆動シリーズからなるベンチマークである。
そこで本研究では,手動のアノテーションを多様なタスク形式に変換するための,新しい長めの物語アノテーション手法とフル情報変換手法を導入する。
シリーズ内のプロット構造とキャラクタ関係を詳細に分析するためのモデルキャパシティをさらに向上するために,新しい物語推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.40471808648207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on \textbf{standalone} videos and mainly assess ``visual elements'' like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a \textbf{series}. To address this challenge, we propose \textbf{SeriesBench}, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, \textbf{PC-DCoT}. Extensive results on \textbf{SeriesBench} indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while \textbf{PC-DCoT} enables these MLLMs to achieve performance improvements. Overall, our \textbf{SeriesBench} and \textbf{PC-DCoT} highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の急速な開発に伴い、これらのモデルの映像理解能力を評価するためのベンチマークが増えている。
しかしながら、これらのベンチマークは \textbf{standalone} ビデオに焦点を当て、主に人間のアクションやオブジェクト状態のような ''視覚要素'' を評価する。
現実には、現代ビデオはしばしば複雑で連続的な物語を包含し、通常は『textbf{series}』として表される。
この課題に対処するために,本研究では,深い物語理解を必要とする28の特別タスクをカバーする,105の慎重にキュレートされた物語駆動シリーズからなるベンチマークである「textbf{SeriesBench}」を提案する。
具体的には、まず様々なジャンルにまたがる多種多様なドラマシリーズを選定する。
そこで本研究では,手動のアノテーションを多種多様なタスク形式に変換するための,新しい長めの物語アノテーション手法を提案する。
プロット構造とシリーズ内の文字関係を詳細に分析するためのモデルキャパシティをさらに高めるために,新しい物語推論フレームワーク \textbf{PC-DCoT} を提案する。
以上の結果から,既存のMLLMは物語駆動シリーズを理解する上で依然として重大な課題に直面していることが示唆された。
全体としては、物語駆動シリーズを理解するためにモデル能力の進歩が不可欠であることを強調し、MLLMの今後の発展を導く。
SeriesBenchはhttps://github.com/zackhxn/SeriesBench-CVPR2025.comで公開されている。
関連論文リスト
- Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming [1.7889842797216124]
大規模言語モデル(LLM)は、オープンエンドのユーザ要求に応じてストーリーを生成することができる。
本稿では,高レベルかつ抽象的な高レベルなストーリー構造仕様を用いて,ストーリー生成のガイドと多様化を提案する。
論文 参考訳(メタデータ) (2024-06-01T21:14:25Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [33.68157535461168]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
本稿では,LDMとLDMの利点を生かしたemphStoryGPT-Vを提案する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。
我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文 参考訳(メタデータ) (2023-11-28T18:53:06Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。