論文の概要: Video Set Distillation: Information Diversification and Temporal Densification
- arxiv url: http://arxiv.org/abs/2412.00111v1
- Date: Thu, 28 Nov 2024 05:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:10.470378
- Title: Video Set Distillation: Information Diversification and Temporal Densification
- Title(参考訳): ビデオセット蒸留 : 情報多様化とテンポラルデンシフィケーション
- Authors: Yinjie Zhao, Heng Zhao, Bihan Wen, Yew-Soon Ong, Joey Tianyi Zhou,
- Abstract要約: Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
- 参考スコア(独自算出の注目度): 68.85010825225528
- License:
- Abstract: The rapid development of AI models has led to a growing emphasis on enhancing their capabilities for complex input data such as videos. While large-scale video datasets have been introduced to support this growth, the unique challenges of reducing redundancies in video \textbf{sets} have not been explored. Compared to image datasets or individual videos, video \textbf{sets} have a two-layer nested structure, where the outer layer is the collection of individual videos, and the inner layer contains the correlations among frame-level data points to provide temporal information. Video \textbf{sets} have two dimensions of redundancies: within-sample and inter-sample redundancies. Existing methods like key frame selection, dataset pruning or dataset distillation are not addressing the unique challenge of video sets since they aimed at reducing redundancies in only one of the dimensions. In this work, we are the first to study Video Set Distillation, which synthesizes optimized video data by jointly addressing within-sample and inter-sample redundancies. Our Information Diversification and Temporal Densification (IDTD) method jointly reduces redundancies across both dimensions. This is achieved through a Feature Pool and Feature Selectors mechanism to preserve inter-sample diversity, alongside a Temporal Fusor that maintains temporal information density within synthesized videos. Our method achieves state-of-the-art results in Video Dataset Distillation, paving the way for more effective redundancy reduction and efficient AI model training on video datasets.
- Abstract(参考訳): AIモデルの急速な開発により、ビデオのような複雑な入力データの能力向上に重点が置かれている。
この成長をサポートするために大規模なビデオデータセットが導入されたが、ビデオ \textbf{sets} における冗長性を減らすというユニークな課題は検討されていない。
画像データセットや個々のビデオと比較すると、ビデオ \textbf{sets} は2層ネスト構造を持ち、外層は個々のビデオの集合であり、内層はフレームレベルのデータポイント間の相関を含み、時間情報を提供する。
Video \textbf{sets} は2次元の冗長性を持つ。
キーフレームの選択やデータセットのプルーニング、データセットの蒸留といった既存の手法は、ビデオセットの独特な課題に対処するものではない。
本研究は, サンプル内およびサンプル間冗長性に共同で対処することで, 最適化された映像データを合成するビデオセット蒸留を初めて研究するものである。
我々の情報多様化と時間密度化(IDTD)法は両次元の冗長性を共同で低減する。
これは、サンプル間の多様性を維持するためのFeature PoolとFeature Selectorsメカニズムと、合成ビデオ内の時間情報密度を維持するTemporal Fusorによって実現される。
提案手法は,ビデオデータセット蒸留における最先端結果を実現し,より効率的な冗長性低減と,ビデオデータセット上での効率的なAIモデルトレーニングを実現する。
関連論文リスト
- Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文 参考訳(メタデータ) (2023-05-10T13:05:43Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections [0.0]
対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。
我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。
私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
論文 参考訳(メタデータ) (2020-11-23T18:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。