論文の概要: SummDiff: Generative Modeling of Video Summarization with Diffusion
- arxiv url: http://arxiv.org/abs/2510.08458v1
- Date: Thu, 09 Oct 2025 17:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.223785
- Title: SummDiff: Generative Modeling of Video Summarization with Diffusion
- Title(参考訳): SummDiff:拡散によるビデオ要約の生成モデリング
- Authors: Kwanseok Kim, Jaehoon Hahm, Sumin Kim, Jinhwan Sul, Byunghak Kim, Joonseok Lee,
- Abstract要約: ビデオ要約は、その重要な瞬間を保ちながら、フレームのサブセットを選択することで、ビデオを短くするタスクである。
先行研究は、複数のラッカーよりも平均的なフレームスコアに決定的に回帰し、良い要約を構成するものの本質的な主観性を無視している。
条件生成タスクとしてビデオ要約をフレーミングすることで,新しい問題定式化を提案する。
映像要約において初めて拡散モデルを採用することで,提案手法であるSummDiffは動的に視覚的文脈に適応し,入力ビデオに条件付き複数の候補要約を生成する。
- 参考スコア(独自算出の注目度): 17.773776413936435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization is a task of shortening a video by choosing a subset of frames while preserving its essential moments. Despite the innate subjectivity of the task, previous works have deterministically regressed to an averaged frame score over multiple raters, ignoring the inherent subjectivity of what constitutes a good summary. We propose a novel problem formulation by framing video summarization as a conditional generation task, allowing a model to learn the distribution of good summaries and to generate multiple plausible summaries that better reflect varying human perspectives. Adopting diffusion models for the first time in video summarization, our proposed method, SummDiff, dynamically adapts to visual contexts and generates multiple candidate summaries conditioned on the input video. Extensive experiments demonstrate that SummDiff not only achieves the state-of-the-art performance on various benchmarks but also produces summaries that closely align with individual annotator preferences. Moreover, we provide a deeper insight with novel metrics from an analysis of the knapsack, which is an important last step of generating summaries but has been overlooked in evaluation.
- Abstract(参考訳): ビデオ要約は、その重要な瞬間を保ちながら、フレームのサブセットを選択することで、ビデオを短くするタスクである。
タスクの本質的な主観性にも拘わらず、以前の研究は、優れた要約を構成するものの本質的な主観性を無視して、複数のラッカーよりも平均的なフレームスコアに決定的に回帰してきた。
本研究では,映像要約を条件生成タスクとしてフレーミングすることで,モデルが優れた要約の分布を学習し,人間の視点をよりよく反映した複数の妥当な要約を生成することのできる,新たな問題定式化を提案する。
映像要約において初めて拡散モデルを採用することで,提案手法であるSummDiffは動的に視覚的文脈に適応し,入力ビデオに条件付き複数の候補要約を生成する。
大規模な実験により、SummDiffは様々なベンチマークで最先端のパフォーマンスを達成するだけでなく、個々のアノテータの好みと密接に一致した要約を生成する。
また,サマリー生成における重要な最終段階であるナプサックの分析から,新たな指標について深い知見を得た。
関連論文リスト
- Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - A Modular Approach for Multimodal Summarization of TV Shows [55.20132267309382]
分離されたコンポーネントが特別なサブタスクを実行するモジュール方式を提案する。
我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。
我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解する新しい測度であるPRISMAを提示する。
論文 参考訳(メタデータ) (2024-03-06T16:10:01Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - How Good is a Video Summary? A New Benchmarking Dataset and Evaluation
Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。
VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。
人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-26T01:42:55Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。