論文の概要: Prompts to Summaries: Zero-Shot Language-Guided Video Summarization
- arxiv url: http://arxiv.org/abs/2506.10807v1
- Date: Thu, 12 Jun 2025 15:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.814173
- Title: Prompts to Summaries: Zero-Shot Language-Guided Video Summarization
- Title(参考訳): 要約へのプロンプト:ゼロショット言語誘導ビデオ要約
- Authors: Mario Barbara, Alaa Maalouf,
- Abstract要約: Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。
市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。
我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
- 参考スコア(独自算出の注目度): 12.200609701777907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of video data intensified the need for flexible user-controllable summarization tools that can operate without domain-specific training data. Existing methods either rely on datasets, limiting generalization, or cannot incorporate user intent expressed in natural language. We introduce Prompts-to-Summaries: the first zero-shot, text-queryable video summarizer that converts off-the-shelf video-language models (VidLMs) captions into user-guided skims via large language models (LLMs) judging, without the use of training data at all, beating all unsupervised and matching supervised methods. Our pipeline (i) segments raw video footage into coherent scenes, (ii) generates rich scene-level descriptions through a memory-efficient, batch-style VidLM prompting scheme that scales to hours-long videos on a single GPU, (iii) leverages an LLM as a judge to assign scene-level importance scores under a carefully crafted prompt, and finally, (iv) propagates those scores to short segments level via two new metrics: consistency (temporal coherency) and uniqueness (novelty), yielding fine-grained frame importance. On SumMe and TVSum, our data-free approach surpasses all prior data-hungry unsupervised methods. It also performs competitively on the Query-Focused Video Summarization (QFVS) benchmark, despite using no training data and the competing methods requiring supervised frame-level importance. To spur further research, we release VidSum-Reason, a new query-driven dataset featuring long-tailed concepts and multi-step reasoning; our framework attains robust F1 scores and serves as the first challenging baseline. Overall, our results demonstrate that pretrained multimodal models, when orchestrated with principled prompting and score propagation, already provide a powerful foundation for universal, text-queryable video summarization.
- Abstract(参考訳): ビデオデータの爆発的な成長により、ドメイン固有のトレーニングデータなしで操作できるフレキシブルなユーザコントロール可能な要約ツールの必要性が高まった。
既存のメソッドはデータセットに依存し、一般化を制限するか、自然言語で表現されたユーザー意図を組み込むことができない。
In this introduced Prompts-to-Summaries: the first zero-shot, text-queryable video sumr that converts off-the-the-shelf video-lang model (VidLMs) Casts to user-guided skims via large language model (LLMs) judge, without the use of training data, without the all unsupervised and matching supervised methods。
パイプライン
(i)生のビデオ映像をコヒーレントなシーンに分割する。
(ii) メモリ効率のよいバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
三 LLM を審査員として利用し、念入りに製作された指示に基づいてシーンレベルの重要度スコアを割り当て、最後に
(iv) それらのスコアを,一貫性(時間的一貫性)と一意性(ノベルティ)という2つの新しい指標によって,短いセグメントレベルに伝播させ,きめ細かなフレームの重要性をもたらす。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
また、トレーニングデータや、監督されたフレームレベルの重要性を必要とする競合メソッドを使用しても、Query-Focused Video Summarization (QFVS)ベンチマークで競合的に動作する。
このフレームワークは、堅牢なF1スコアを獲得し、最初の挑戦的なベースラインとして機能する。
以上の結果から,事前学習したマルチモーダルモデルが,原理的プロンプトとスコアの伝搬で編成された場合,すでに,ユニバーサルでテキストクエリ可能な映像要約のための強力な基盤となっていることが示唆された。
関連論文リスト
- HierSum: A Global and Local Attention Mechanism for Video Summarization [14.88934924520362]
本稿では,指導ビデオの要約に焦点をあて,映像を意味のあるセグメントに分割する方法を提案する。
HierSumは、サブタイトルからのきめ細かいローカルキューと、ビデオレベルの命令によって提供されるグローバルなコンテキスト情報を統合する。
我々は,HierSumがF1スコアやランク相関などの重要な指標において,既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-04-25T20:30:30Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。