論文の概要: Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2505.06594v1
- Date: Sat, 10 May 2025 10:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.931459
- Title: Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation
- Title(参考訳): ビデオとテキストの統合:マルチモーダル要約生成と評価のためのバランスのとれたアプローチ
- Authors: Galann Pennec, Zhengyuan Liu, Nicholas Asher, Philippe Muller, Nancy F. Chen,
- Abstract要約: 本稿では,ゼロショット映像からテキストまでの要約手法を提案する。
従来の手法とは異なり、我々は文字をゼロショットで生成し、音声、ビデオ、テキストのみを入力として使用する。
- 参考スコア(独自算出の注目度): 35.50845951376099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) often struggle to balance visual and textual information when summarizing complex multimodal inputs, such as entire TV show episodes. In this paper, we propose a zero-shot video-to-text summarization approach that builds its own screenplay representation of an episode, effectively integrating key video moments, dialogue, and character information into a unified document. Unlike previous approaches, we simultaneously generate screenplays and name the characters in zero-shot, using only the audio, video, and transcripts as input. Additionally, we highlight that existing summarization metrics can fail to assess the multimodal content in summaries. To address this, we introduce MFactSum, a multimodal metric that evaluates summaries with respect to both vision and text modalities. Using MFactSum, we evaluate our screenplay summaries on the SummScreen3D dataset, demonstrating superiority against state-of-the-art VLMs such as Gemini 1.5 by generating summaries containing 20% more relevant visual information while requiring 75% less of the video as input.
- Abstract(参考訳): VLM(Vision-Language Models)は、テレビ番組のエピソード全体のような複雑なマルチモーダル入力を要約する際に、視覚情報とテキスト情報のバランスをとるのに苦労することが多い。
本稿では,ゼロショット映像とテキストの要約手法を提案する。この手法はエピソードの独自の画面表現を構築し,キー映像のモーメント,対話,文字情報を統一された文書に効果的に統合する。
従来の手法とは異なり、我々は文字をゼロショットで生成し、音声、ビデオ、テキストのみを入力として使用する。
さらに,既存の要約メトリクスは,要約におけるマルチモーダルコンテンツの評価に失敗する可能性があることを強調した。
そこで本研究では,視覚とテキストの両モードで要約を評価するマルチモーダルメトリックであるMFactSumを紹介する。
MFactSumを用いてSummScreen3Dデータセットの画面要約を評価し,ジェミニ1.5のような最先端のVLMに対して,映像の75%を入力として必要としながら,より関連性の高い視覚情報を含む要約を生成することで優位性を示す。
関連論文リスト
- SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。
我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。
我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2025-05-06T08:47:14Z) - Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure [5.332290080594085]
視覚言語モデル(VLM)は、視覚情報とテキスト情報を複数のフォーマットで処理することができる。
テキストの多いマルチモーダル文書から要約を生成するための費用対効果戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:55:01Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。