論文の概要: Distill Video Datasets into Images
- arxiv url: http://arxiv.org/abs/2512.14621v1
- Date: Tue, 16 Dec 2025 17:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.817582
- Title: Distill Video Datasets into Images
- Title(参考訳): 画像に散在するビデオデータセット
- Authors: Zhenghao Zhao, Haoxuan Wang, Kai Wang, Yuzhang Shang, Yuan Hong, Yan Yan,
- Abstract要約: 単一フレームビデオセット蒸留(Single-Frame Videoset Distillation, SFVD)は、各クラスに対して高い情報フレームにビデオを蒸留するフレームワークである。
SFVDは従来の手法よりも大幅に優れており、MiniUCFでは最大5.3%の改善が達成されている。
- 参考スコア(独自算出の注目度): 28.61426017935629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to synthesize compact yet informative datasets that allow models trained on them to achieve performance comparable to training on the full dataset. While this approach has shown promising results for image data, extending dataset distillation methods to video data has proven challenging and often leads to suboptimal performance. In this work, we first identify the core challenge in video set distillation as the substantial increase in learnable parameters introduced by the temporal dimension of video, which complicates optimization and hinders convergence. To address this issue, we observe that a single frame is often sufficient to capture the discriminative semantics of a video. Leveraging this insight, we propose Single-Frame Video set Distillation (SFVD), a framework that distills videos into highly informative frames for each class. Using differentiable interpolation, these frames are transformed into video sequences and matched with the original dataset, while updates are restricted to the frames themselves for improved optimization efficiency. To further incorporate temporal information, the distilled frames are combined with sampled real videos from real videos during the matching process through a channel reshaping layer. Extensive experiments on multiple benchmarks demonstrate that SFVD substantially outperforms prior methods, achieving improvements of up to 5.3% on MiniUCF, thereby offering a more effective solution.
- Abstract(参考訳): データセットの蒸留は、訓練されたモデルが完全なデータセットでのトレーニングに匹敵するパフォーマンスを達成するために、コンパクトで情報に富んだデータセットを合成することを目的としている。
このアプローチは画像データに対して有望な結果を示しているが、データセットの蒸留法をビデオデータに拡張することは困難であることが証明され、しばしば準最適性能をもたらす。
本研究では, ビデオの時間次元による学習可能なパラメータの大幅な増加が, 最適化を複雑にし, 収束を阻害する要因として, ビデオセット蒸留における中心的課題を最初に挙げる。
この問題に対処するために、一つのフレームがビデオの識別的意味論を捉えるのに十分であることが多いことを観察する。
この知見を生かして、各クラスに対して高い情報量を持つフレームに動画を蒸留するフレームワークであるSingle-Frame Video Set Distillation (SFVD)を提案する。
微分可能な補間により、これらのフレームはビデオシーケンスに変換され、元のデータセットと一致し、更新は最適化効率を改善するためにフレーム自体に制限される。
さらに時間情報を組み込むため、蒸留されたフレームは、チャネル再形成層を介して、マッチングプロセス中に実ビデオからサンプリングされた実ビデオと結合される。
複数のベンチマークでの大規模な実験により、SFVDは以前の方法よりも大幅に優れており、MiniUCFで最大5.3%の改善が達成され、より効果的なソリューションが提供された。
関連論文リスト
- Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets [13.22969334943219]
本稿では,新しいユニレベルビデオデータセット蒸留フレームワークを提案する。
時間的冗長性に対処し,運動の保存性を高めるため,時間的サリエンシ誘導フィルタリング機構を導入する。
本手法は, 実データと蒸留ビデオデータとのギャップを埋めて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T04:02:57Z) - Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。
本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。
代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。
提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文 参考訳(メタデータ) (2025-05-10T15:12:19Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.689304579898728]
イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-12-10T18:55:30Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。