論文の概要: Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement
- arxiv url: http://arxiv.org/abs/2312.00362v2
- Date: Mon, 15 Apr 2024 11:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:07:45.008557
- Title: Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement
- Title(参考訳): 静止画によるダンス:静的動的歪みによるビデオ蒸留
- Authors: Ziyu Wang, Yue Xu, Cewu Lu, Yong-Lu Li,
- Abstract要約: 本稿では,ビデオ蒸留に関する最初の体系的研究を行い,時間的圧縮を分類する分類法を提案する。
本研究は, 蒸留時に時間情報がよく学習されないこと, 合成データの時間次元がほとんど寄与しないことを明らかにする。
提案手法は,メモリストレージ予算の大幅な削減を図りながら,ビデオデータセットの最先端化を実現している。
- 参考スコア(独自算出の注目度): 56.26688591324508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, dataset distillation has paved the way towards efficient machine learning, especially for image datasets. However, the distillation for videos, characterized by an exclusive temporal dimension, remains an underexplored domain. In this work, we provide the first systematic study of video distillation and introduce a taxonomy to categorize temporal compression. Our investigation reveals that the temporal information is usually not well learned during distillation, and the temporal dimension of synthetic data contributes little. The observations motivate our unified framework of disentangling the dynamic and static information in the videos. It first distills the videos into still images as static memory and then compensates the dynamic and motion information with a learnable dynamic memory block. Our method achieves state-of-the-art on video datasets at different scales, with a notably smaller memory storage budget. Our code is available at https://github.com/yuz1wan/video_distillation.
- Abstract(参考訳): 近年、特に画像データセットにおいて、データセットの蒸留が効率的な機械学習への道を開いた。
しかし、ビデオの蒸留は、排他的時間次元によって特徴づけられ、未探索領域のままである。
本研究では,ビデオ蒸留に関する最初の体系的研究を行い,時間的圧縮を分類する分類法を提案する。
本研究は, 蒸留時に時間情報がよく学習されないこと, 合成データの時間次元がほとんど寄与しないことを明らかにする。
この観察は、ビデオ内の動的および静的な情報を切り離すという統合された枠組みを動機付けます。
動画を静止メモリとして蒸留し、動的および運動情報を学習可能な動的メモリブロックで補償する。
提案手法は,メモリストレージ予算の大幅な削減を図りながら,ビデオデータセットの最先端化を実現している。
私たちのコードはhttps://github.com/yuz1wan/video_distillation.comから入手可能です。
関連論文リスト
- Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation [32.11635464720755]
本稿では,映像レベルの参照表現理解を静的および運動知覚に分離することを提案する。
我々は、視覚的に類似した物体の動きを区別するために、対照的な学習を採用する。
これらのコントリビューションは、5つのデータセットにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-04-04T17:58:21Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Self-Conditioned Probabilistic Learning of Video Rescaling [70.10092286301997]
本稿では,ビデオ再スケーリングのための自己条件付き確率的フレームワークを提案し,ペアダウンスケーリングとアップスケーリングの手順を同時に学習する。
我々は、その条件付き確率を強い時空間事前情報に基づいて最大化することにより、ダウンスケーリングで失われた情報のエントロピーを減少させる。
我々は、このフレームワークを、非微分産業損失コーデックの勾配推定器として提案する、損失のあるビデオ圧縮システムに拡張する。
論文 参考訳(メタデータ) (2021-07-24T15:57:15Z) - Efficient data-driven encoding of scene motion using Eccentricity [0.993963191737888]
本稿では,映像・映像ストリームから生成した静的マップを用いて動的視覚シーンを表現する新しい手法を提案する。
地図はピクセル単位で計算された2次元行列であり、偏心データ解析の概念に基づいている。
潜在的なアプリケーションのリストには、ビデオベースのアクティビティ認識、意図認識、オブジェクト追跡、ビデオ記述が含まれる。
論文 参考訳(メタデータ) (2021-03-03T23:11:21Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。