Fugu-MT 論文翻訳(概要): SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

論文の概要: SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

arxiv url: http://arxiv.org/abs/2504.21435v1
Date: Wed, 30 Apr 2025 08:48:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 19:41:05.625185
Title: SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding
Title（参考訳）: SeriesBench: ナラティブ駆動ドラマシリーズ理解のためのベンチマーク
Authors: Chenkai Zhang, Yiming Lei, Zeming Liu, Haitao Leng, ShaoGuo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang,
Abstract要約: textbfSeriesBenchは、105個の注意深くキュレートされた物語駆動シリーズからなるベンチマークである。そこで本研究では,手動のアノテーションを多様なタスク形式に変換するための,新しい長めの物語アノテーション手法とフル情報変換手法を導入する。シリーズ内のプロット構造とキャラクタ関係を詳細に分析するためのモデルキャパシティをさらに向上するために,新しい物語推論フレームワークを提案する。
参考スコア（独自算出の注目度）: 38.40471808648207
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on \textbf{standalone} videos and mainly assess ``visual elements'' like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a \textbf{series}. To address this challenge, we propose \textbf{SeriesBench}, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, \textbf{PC-DCoT}. Extensive results on \textbf{SeriesBench} indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while \textbf{PC-DCoT} enables these MLLMs to achieve performance improvements. Overall, our \textbf{SeriesBench} and \textbf{PC-DCoT} highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)の急速な開発に伴い、これらのモデルの映像理解能力を評価するためのベンチマークが増えている。しかしながら、これらのベンチマークは \textbf{standalone} ビデオに焦点を当て、主に人間のアクションやオブジェクト状態のような ''視覚要素'' を評価する。現実には、現代ビデオはしばしば複雑で連続的な物語を包含し、通常は『textbf{series}』として表される。この課題に対処するために,本研究では,深い物語理解を必要とする28の特別タスクをカバーする,105の慎重にキュレートされた物語駆動シリーズからなるベンチマークである「textbf{SeriesBench}」を提案する。具体的には、まず様々なジャンルにまたがる多種多様なドラマシリーズを選定する。そこで本研究では,手動のアノテーションを多種多様なタスク形式に変換するための,新しい長めの物語アノテーション手法を提案する。プロット構造とシリーズ内の文字関係を詳細に分析するためのモデルキャパシティをさらに高めるために,新しい物語推論フレームワーク \textbf{PC-DCoT} を提案する。以上の結果から,既存のMLLMは物語駆動シリーズを理解する上で依然として重大な課題に直面していることが示唆された。全体としては、物語駆動シリーズを理解するためにモデル能力の進歩が不可欠であることを強調し、MLLMの今後の発展を導く。 SeriesBenchはhttps://github.com/zackhxn/SeriesBench-CVPR2025.comで公開されている。

関連論文リスト

IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes [20.662082715151886]
我々はマルチクリップ・ベンチと呼ばれる新しいデータセットを導入し、マルチショットシナリオに適した濃密な記述と命令ベースの質問応答ペアを特徴付ける。インスタンスレベルの機能をインスタンスレベルで注入する新たなモデルIPFormer-VideoLLMを、効率的な注意ベースのコネクタを通じて提供します。
論文参考訳（メタデータ） (2025-06-26T09:30:57Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning [10.854285913078257]
本稿では,時系列解析用に設計された新しいMLLMであるChatTSを紹介する。 ChatTSは、視覚MLLMが画像を処理する方法と同様、時系列をモダリティとして扱う。 Time Series Evol-Instructは様々な時系列Q&Aを生成し、モデルの推論能力を高めます。
論文参考訳（メタデータ） (2024-12-04T08:06:15Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming [1.7889842797216124]
大規模言語モデル(LLM)は、オープンエンドのユーザ要求に応じてストーリーを生成することができる。本稿では,高レベルかつ抽象的な高レベルなストーリー構造仕様を用いて,ストーリー生成のガイドと多様化を提案する。
論文参考訳（メタデータ） (2024-06-01T21:14:25Z)
Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark [13.490168087823992]
大規模言語モデル(LLM)は、自動時系列分析とレポートの可能性を秘めている。本稿では時系列データに固有の様々な特徴を記述した重要なフレームワークである時系列特徴の包括的分類法を紹介する。このデータセットは、コンパイル時系列におけるLCMの熟練度を評価するための確かな基盤として機能する。
論文参考訳（メタデータ） (2024-04-25T12:24:37Z)
A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文参考訳（メタデータ） (2024-03-06T16:10:01Z)
StoryGPT-V: Large Language Models as Consistent Story Visualizers [33.68157535461168]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。本稿では,LDMとLDMの利点を生かしたemphStoryGPT-Vを提案する。
論文参考訳（メタデータ） (2023-12-04T18:14:29Z)
Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文参考訳（メタデータ） (2023-11-28T18:53:06Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文参考訳（メタデータ） (2023-10-03T01:31:25Z)
SageFormer: Series-Aware Framework for Long-term Multivariate Time Series Forecasting [16.395374003276817]
本稿では,シリーズ間の依存関係の重要性を強調するために,新たなシリーズアウェアフレームワークを提案する。グラフ強化トランスフォーマーモデルとして、SageFormerはグラフ構造を用いて、シリーズ間の複雑な関係を巧みに識別し、モデル化する。特に、シリーズ対応フレームワークは既存のTransformerベースのモデルとシームレスに統合され、シリーズ間の関係を理解する能力が強化されている。
論文参考訳（メタデータ） (2023-07-04T10:08:25Z)
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文参考訳（メタデータ） (2022-09-13T17:47:39Z)
CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文参考訳（メタデータ） (2021-07-01T17:59:27Z)
Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2020-08-11T03:55:11Z)
Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文参考訳（メタデータ） (2020-04-27T11:54:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。