論文の概要: ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting
- arxiv url: http://arxiv.org/abs/2504.15921v1
- Date: Tue, 22 Apr 2025 14:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 18:03:11.860073
- Title: ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting
- Title(参考訳): ViSMaP:メタプロンプティングによる監視なし時間ビデオ要約
- Authors: Jian Hu, Dimitrios Korkinof, Shaogang Gong, Mariano Beguerisse-Diaz,
- Abstract要約: ViSMapは、時間長ビデオをスーパービジョンなしで要約するシステムだ。
短いビデオ(注釈付きデータが豊富にある)と長いビデオ(そうでないもの)のギャップを埋めます。
- 参考スコア(独自算出の注目度): 29.049727807251084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce ViSMap: Unsupervised Video Summarisation by Meta Prompting, a system to summarise hour long videos with no-supervision. Most existing video understanding models work well on short videos of pre-segmented events, yet they struggle to summarise longer videos where relevant events are sparsely distributed and not pre-segmented. Moreover, long-form video understanding often relies on supervised hierarchical training that needs extensive annotations which are costly, slow and prone to inconsistency. With ViSMaP we bridge the gap between short videos (where annotated data is plentiful) and long ones (where it's not). We rely on LLMs to create optimised pseudo-summaries of long videos using segment descriptions from short ones. These pseudo-summaries are used as training data for a model that generates long-form video summaries, bypassing the need for expensive annotations of long videos. Specifically, we adopt a meta-prompting strategy to iteratively generate and refine creating pseudo-summaries of long videos. The strategy leverages short clip descriptions obtained from a supervised short video model to guide the summary. Each iteration uses three LLMs working in sequence: one to generate the pseudo-summary from clip descriptions, another to evaluate it, and a third to optimise the prompt of the generator. This iteration is necessary because the quality of the pseudo-summaries is highly dependent on the generator prompt, and varies widely among videos. We evaluate our summaries extensively on multiple datasets; our results show that ViSMaP achieves performance comparable to fully supervised state-of-the-art models while generalising across domains without sacrificing performance. Code will be released upon publication.
- Abstract(参考訳): 本稿では,VSMap: Unsupervised Video Summarisation by Meta Promptingを紹介した。
既存のビデオ理解モデルは、事前セグメンテーションされたイベントの短いビデオでうまく機能するが、関連するイベントがわずかに分散され、事前セグメンテーションされていない長いビデオの要約に苦慮している。
さらに、長い形式のビデオ理解は、コストがかかり、遅く、矛盾しがちな広範囲なアノテーションを必要とする教師付き階層的トレーニングに依存していることが多い。
ViSMaPでは、短いビデオ(注釈付きデータが豊富)と長いビデオ(そうでないもの)のギャップを埋めます。
我々は、短いビデオのセグメント記述を用いて、長いビデオの擬似サマリーを最適化するためにLLMを利用する。
これらの擬似要約は、長いビデオの高価なアノテーションの必要性を回避し、長文のビデオ要約を生成するモデルのトレーニングデータとして使用される。
具体的には、長編ビデオの擬似要約を反復的に生成・洗練するためのメタプロンプト戦略を採用する。
この戦略は、監督されたショートビデオモデルから得られた短いクリップ記述を利用して要約を導く。
1つはクリップ記述から擬似要約を生成するもので、もう1つはそれを評価し、もう1つはジェネレータのプロンプトを最適化するものである。
このイテレーションは、擬似サマリーの品質がジェネレータのプロンプトに大きく依存しているため必要であり、ビデオ間で広く異なる。
以上の結果から、ViSMaPは、完全に教師付きされた最先端モデルに匹敵する性能を達成しつつ、パフォーマンスを犠牲にすることなく、ドメインをまたいだ一般化を実現していることがわかった。
コードは出版時に公開される。
関連論文リスト
- MR. Video: "MapReduce" is the Principle for Long Video Understanding [27.9561679446938]
MR.ビデオは、エージェント的な長いビデオ理解フレームワークである。
文脈長に制限されることなく、詳細な短い映像知覚を行う。
LVBenchでは10%以上の精度向上を実現している。
論文 参考訳(メタデータ) (2025-04-22T17:59:41Z) - Loong: Generating Minute-level Long Videos with Autoregressive Language Models [76.59124981781602]
そこで我々は,Longという自動回帰型大言語モデル (LLM) ベースのビデオジェネレータを提案する。
具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。
提案したLoongは10秒のビデオでトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張できる。
論文 参考訳(メタデータ) (2024-10-03T17:59:02Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。