論文の概要: Video Summarization using Denoising Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2412.08357v2
- Date: Thu, 12 Dec 2024 15:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:52.081988
- Title: Video Summarization using Denoising Diffusion Probabilistic Model
- Title(参考訳): Denoising Diffusion Probabilistic Model を用いた映像要約
- Authors: Zirui Shang, Yubo Zhu, Hongxi Li, Shuo Yang, Xinxiao Wu,
- Abstract要約: 本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。
具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
- 参考スコア(独自算出の注目度): 21.4190413531697
- License:
- Abstract: Video summarization aims to eliminate visual redundancy while retaining key parts of video to construct concise and comprehensive synopses. Most existing methods use discriminative models to predict the importance scores of video frames. However, these methods are susceptible to annotation inconsistency caused by the inherent subjectivity of different annotators when annotating the same video. In this paper, we introduce a generative framework for video summarization that learns how to generate summaries from a probability distribution perspective, effectively reducing the interference of subjective annotation noise. Specifically, we propose a novel diffusion summarization method based on the Denoising Diffusion Probabilistic Model (DDPM), which learns the probability distribution of training data through noise prediction, and generates summaries by iterative denoising. Our method is more resistant to subjective annotation noise, and is less prone to overfitting the training data than discriminative methods, with strong generalization ability. Moreover, to facilitate training DDPM with limited data, we employ an unsupervised video summarization model to implement the earlier denoising process. Extensive experiments on various datasets (TVSum, SumMe, and FPVSum) demonstrate the effectiveness of our method.
- Abstract(参考訳): ビデオ要約は、簡潔で包括的なシナプスを構築するためにビデオの重要な部分を保ちながら、視覚的冗長性を取り除くことを目的としている。
既存のほとんどの手法は、ビデオフレームの重要度を予測するために識別モデルを使用している。
しかし、これらの手法は、同じビデオに注釈をつける際に、異なるアノテーションの固有の主観性によって生じるアノテーションの不整合に影響を受けやすい。
本稿では、確率分布の観点から要約を生成する方法を学び、主観的アノテーションノイズの干渉を効果的に軽減する、映像要約のための生成フレームワークを提案する。
具体的には,ノイズ予測によりトレーニングデータの確率分布を学習し,反復的復調により要約を生成するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約手法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
さらに,限られたデータによるDDPMのトレーニングを容易にするために,教師なし映像要約モデルを用いて,より初期の復調処理を実装した。
各種データセット(TVSum, SumMe, FPVSum)の大規模実験により, 本手法の有効性が示された。
関連論文リスト
- Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - From Denoising Diffusions to Denoising Markov Models [38.33676858989955]
デノイング拡散は、顕著な経験的性能を示す最先端の生成モデルである。
本稿では、この手法を広い範囲に一般化し、スコアマッチングのオリジナル拡張につながる統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T14:34:27Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。