論文の概要: GVD: Guiding Video Diffusion Model for Scalable Video Distillation
- arxiv url: http://arxiv.org/abs/2507.22360v1
- Date: Wed, 30 Jul 2025 03:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.979166
- Title: GVD: Guiding Video Diffusion Model for Scalable Video Distillation
- Title(参考訳): GVD:スケーラブルなビデオ蒸留のためのビデオ拡散モデル
- Authors: Kunyang Li, Jeffrey A Chan Santiago, Sarinda Dhanesh Samarasinghe, Gaowen Liu, Mubarak Shah,
- Abstract要約: ビデオデータセットの蒸留は、空間的および時間的情報をはるかに小さなデータセットでキャプチャすることを目的としている。
本稿では,最初の拡散型ビデオ蒸留法であるGVD: Guiding Video Diffusionを提案する。
提案手法は,MiniUCF および HMDB51 データセットにおいて,従来の最先端の蒸留法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 45.67255330446926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the larger computation and storage requirements associated with large video datasets, video dataset distillation aims to capture spatial and temporal information in a significantly smaller dataset, such that training on the distilled data has comparable performance to training on all of the data. We propose GVD: Guiding Video Diffusion, the first diffusion-based video distillation method. GVD jointly distills spatial and temporal features, ensuring high-fidelity video generation across diverse actions while capturing essential motion information. Our method's diverse yet representative distillations significantly outperform previous state-of-the-art approaches on the MiniUCF and HMDB51 datasets across 5, 10, and 20 Instances Per Class (IPC). Specifically, our method achieves 78.29 percent of the original dataset's performance using only 1.98 percent of the total number of frames in MiniUCF. Additionally, it reaches 73.83 percent of the performance with just 3.30 percent of the frames in HMDB51. Experimental results across benchmark video datasets demonstrate that GVD not only achieves state-of-the-art performance but can also generate higher resolution videos and higher IPC without significantly increasing computational cost.
- Abstract(参考訳): ビデオデータセットの蒸留は、大規模なビデオデータセットに関連するより大きな計算とストレージ要件に対処するため、より小さなデータセットで空間的および時間的情報をキャプチャすることを目的としている。
本稿では,最初の拡散型ビデオ蒸留法であるGVD: Guiding Video Diffusionを提案する。
GVDは、空間的特徴と時間的特徴を共同で蒸留し、必要な動き情報を捕捉しながら、多様な動作にわたって高忠実度ビデオ生成を確実にする。
提案手法は,5, 10, 20 Instances per Class (IPC) における MiniUCF および HMDB51 データセットに対する従来手法よりも有意に優れている。
具体的には、MiniUCFのフレーム総数のわずか1.98パーセントを使用して、元のデータセットのパフォーマンスの78.29パーセントを達成する。
さらに、パフォーマンスの73.83パーセントに達し、HMDB51のフレームの3.30%に過ぎなかった。
ベンチマークビデオデータセットによる実験結果から、GVDは最先端のパフォーマンスを達成できるだけでなく、高い解像度の動画と高いIPCを生成することができ、計算コストを大幅に増大させることなく実現できることが示された。
関連論文リスト
- Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics [68.85010825225528]
ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。
既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットにおけるその有効性を制限している。
合成ビデオの時間分解能を最適に予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
論文 参考訳(メタデータ) (2025-05-28T11:43:58Z) - Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets [13.22969334943219]
本稿では,新しいユニレベルビデオデータセット蒸留フレームワークを提案する。
時間的冗長性に対処し,運動の保存性を高めるため,時間的サリエンシ誘導フィルタリング機構を導入する。
本手法は, 実データと蒸留ビデオデータとのギャップを埋めて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T04:02:57Z) - Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。
本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。
代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。
提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文 参考訳(メタデータ) (2025-05-10T15:12:19Z) - Latent Video Dataset Distillation [6.028880672839687]
本稿では,潜水空間で動作する新しいビデオデータセット蒸留手法を提案する。
多様性を意識したデータ選択戦略を用いて,代表的なサンプルと多種多様なサンプルを選定する。
また、潜在データセットをさらに圧縮するための、単純でトレーニング不要な手法も導入する。
論文 参考訳(メタデータ) (2025-04-23T22:50:39Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - VideoMAE: Masked Autoencoders are Data-Efficient Learners for
Self-Supervised Video Pre-Training [49.68815656405452]
我々は、ビデオマスク付きオートエンコーダ(VideoMAE)が、自己教師型ビデオ事前学習(SSVP)のためのデータ効率の学習者であることを示す。
我々は、最新のImageMAEに触発され、カスタマイズされたビデオチューブマスキングと再構築を提案する。
ビデオMAEとバニラVTのバックボーンはKinect-400で83.9%、Something V2で75.3%、UCF101で90.8%、HMDB51で61.1%を達成することができる。
論文 参考訳(メタデータ) (2022-03-23T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。