論文の概要: Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics
- arxiv url: http://arxiv.org/abs/2506.02021v1
- Date: Wed, 28 May 2025 11:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.345696
- Title: Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics
- Title(参考訳): ダイナミック・アウェア・ビデオ蒸留:映像セマンティックスに基づく時間分解能の最適化
- Authors: Yinjie Zhao, Heng Zhao, Bihan Wen, Yew-Soon Ong, Joey Tianyi Zhou,
- Abstract要約: ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。
既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットにおけるその有効性を制限している。
合成ビデオの時間分解能を最適に予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
- 参考スコア(独自算出の注目度): 68.85010825225528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of vision tasks and the scaling on datasets and models, redundancy reduction in vision datasets has become a key area of research. To address this issue, dataset distillation (DD) has emerged as a promising approach to generating highly compact synthetic datasets with significantly less redundancy while preserving essential information. However, while DD has been extensively studied for image datasets, DD on video datasets remains underexplored. Video datasets present unique challenges due to the presence of temporal information and varying levels of redundancy across different classes. Existing DD approaches assume a uniform level of temporal redundancy across all different video semantics, which limits their effectiveness on video datasets. In this work, we propose Dynamic-Aware Video Distillation (DAViD), a Reinforcement Learning (RL) approach to predict the optimal Temporal Resolution of the synthetic videos. A teacher-in-the-loop reward function is proposed to update the RL agent policy. To the best of our knowledge, this is the first study to introduce adaptive temporal resolution based on video semantics in video dataset distillation. Our approach significantly outperforms existing DD methods, demonstrating substantial improvements in performance. This work paves the way for future research on more efficient and semantic-adaptive video dataset distillation research.
- Abstract(参考訳): ビジョンタスクの急速な開発とデータセットとモデルのスケーリングにより、ビジョンデータセットの冗長性の低減が研究の重要な領域となっている。
この問題に対処するために、データセット蒸留(DD)は、重要な情報を保持しながら、冗長性を著しく低減した、非常にコンパクトな合成データセットを生成するための有望なアプローチとして登場した。
しかし、画像データセットではDDが広く研究されているが、ビデオデータセットではDDは未探索のままである。
ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。
既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットでの有効性を制限している。
本研究では,合成ビデオの最適時間分解能を予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
RLエージェントポリシーを更新するために,教師-イン-ザ-ループ報酬関数を提案する。
我々の知る限りでは、ビデオデータセット蒸留におけるビデオ意味論に基づく適応的時間分解能を導入する最初の研究である。
提案手法は既存のDD法を著しく上回り,性能が大幅に向上した。
この研究は、より効率的でセマンティック適応的なビデオデータセット蒸留研究の今後の研究の道を開くものである。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets [13.22969334943219]
本稿では,新しいユニレベルビデオデータセット蒸留フレームワークを提案する。
時間的冗長性に対処し,運動の保存性を高めるため,時間的サリエンシ誘導フィルタリング機構を導入する。
本手法は, 実データと蒸留ビデオデータとのギャップを埋めて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T04:02:57Z) - Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。
本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。
代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。
提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文 参考訳(メタデータ) (2025-05-10T15:12:19Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。