論文の概要: Minimal Clips, Maximum Salience: Long Video Summarization via Key Moment Extraction
- arxiv url: http://arxiv.org/abs/2512.11399v1
- Date: Fri, 12 Dec 2025 09:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.7132
- Title: Minimal Clips, Maximum Salience: Long Video Summarization via Key Moment Extraction
- Title(参考訳): 最小クリップ, 最大サリエンス:キーモーメント抽出による長ビデオ要約
- Authors: Galann Pennec, Zhengyuan Liu, Nicholas Asher, Philippe Muller, Nancy F. Chen,
- Abstract要約: 長大なビデオコンテンツの費用対効果分析を可能にするツールを設計することが重要である。
マルチモーダル要約に含まれるキー映像をターゲットとしたクリップ選択手法を提案する。
- 参考スコア(独自算出の注目度): 42.11774699832131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are able to process increasingly longer videos. Yet, important visual information is easily lost throughout the entire context and missed by VLMs. Also, it is important to design tools that enable cost-effective analysis of lengthy video content. In this paper, we propose a clip selection method that targets key video moments to be included in a multimodal summary. We divide the video into short clips and generate compact visual descriptions of each using a lightweight video captioning model. These are then passed to a large language model (LLM), which selects the K clips containing the most relevant visual information for a multimodal summary. We evaluate our approach on reference clips for the task, automatically derived from full human-annotated screenplays and summaries in the MovieSum dataset. We further show that these reference clips (less than 6% of the movie) are sufficient to build a complete multimodal summary of the movies in MovieSum. Using our clip selection method, we achieve a summarization performance close to that of these reference clips while capturing substantially more relevant video information than random clip selection. Importantly, we maintain low computational cost by relying on a lightweight captioning model.
- Abstract(参考訳): VLM(Vision-Language Models)は、より長いビデオを処理することができる。
しかし、重要な視覚情報はコンテキスト全体を通して簡単に失われ、VLMによって見逃される。
また、長大な映像コンテンツの費用対効果分析を可能にするツールの設計も重要である。
本稿では,マルチモーダル要約に含まれるキー映像をターゲットとしたクリップ選択手法を提案する。
映像を短いクリップに分割し、軽量なビデオキャプションモデルを用いて、それぞれの視覚的記述をコンパクトに生成する。
それらが大きな言語モデル(LLM)に渡され、マルチモーダル要約のための最も関連性の高い視覚情報を含むKクリップが選択される。
本手法は,MovieSumデータセットのフルヒューマン・アノテート・スクリーンプレイと要約から自動的に抽出されるタスクの参照クリップに対するアプローチを評価する。
さらに、これらの参照クリップ(映画の6%未満)は、ムービーサムの映画の完全なマルチモーダル要約を構築するのに十分であることを示す。
クリップ選択法を用いて、これらの参照クリップに近い要約性能を実現し、ランダムなクリップ選択よりもはるかに関連性の高い映像情報をキャプチャする。
重要なことは、軽量キャプションモデルに頼って計算コストを低く抑えることである。
関連論文リスト
- From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting [29.049727807251084]
ViSMapは、時間長ビデオをスーパービジョンなしで要約するシステムだ。
短いビデオ(注釈付きデータが豊富にある)と長いビデオ(そうでないもの)のギャップを埋めます。
論文 参考訳(メタデータ) (2025-04-22T14:06:01Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Skimming and Scanning for Untrimmed Video Action Recognition [44.70501912319826]
非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがある。
skim-scan技術に基づく,単純かつ効果的なクリップレベルソリューションを提案する。
我々のソリューションは、精度と効率の両面で最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-04-21T12:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。