論文の概要: PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion
- arxiv url: http://arxiv.org/abs/2505.22564v1
- Date: Wed, 28 May 2025 16:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.738597
- Title: PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion
- Title(参考訳): PRISM: プログレッシブリファインメントとスパースモーションの挿入によるビデオデータセットの凝縮
- Authors: Jaehyun Choi, Jiwan Hur, Gyojin Han, Jaemyung Yu, Junmo Kim,
- Abstract要約: 本稿では,ビデオデータセット凝縮のためのプログレッシブ・リファインメント・インサーション・フォー・スパース・モーション(PRISM)を提案する。
静的コンテンツを動的運動から分離する従来の方法とは異なり、本手法はこれらの要素間の重要な相互依存を保存する。
提案手法は,動作中の動作を完全に調整するためにフレームを段階的に洗練・挿入し,性能は向上するが,記憶力は低下する。
- 参考スコア(独自算出の注目度): 22.804486552524885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video dataset condensation has emerged as a critical technique for addressing the computational challenges associated with large-scale video data processing in deep learning applications. While significant progress has been made in image dataset condensation, the video domain presents unique challenges due to the complex interplay between spatial content and temporal dynamics. This paper introduces PRISM, Progressive Refinement and Insertion for Sparse Motion, for video dataset condensation, a novel approach that fundamentally reconsiders how video data should be condensed. Unlike the previous method that separates static content from dynamic motion, our method preserves the essential interdependence between these elements. Our approach progressively refines and inserts frames to fully accommodate the motion in an action while achieving better performance but less storage, considering the relation of gradients for each frame. Extensive experiments across standard video action recognition benchmarks demonstrate that PRISM outperforms existing disentangled approaches while maintaining compact representations suitable for resource-constrained environments.
- Abstract(参考訳): ビデオデータセットの凝縮は、ディープラーニングアプリケーションにおける大規模ビデオデータ処理に関連する計算問題に対処する重要な手法として登場した。
画像データセットの凝縮には大きな進歩があったが、空間的コンテンツと時間的ダイナミクスの複雑な相互作用により、ビデオ領域はユニークな課題を呈している。
本稿では,ビデオデータセットの凝縮に対するPRISM,Progressive Refinement and Insertion for Sparse Motionを紹介する。
静的コンテンツを動的運動から分離する従来の方法とは異なり、本手法はこれらの要素間の重要な相互依存を保存する。
提案手法では, フレーム間の勾配関係を考慮し, 動作中の動きを完全に調整すると共に, 性能は向上するが, 記憶量も少なく, フレームを徐々に洗練・挿入する。
標準的なビデオ行動認識ベンチマークの広範な実験により、PRISMはリソース制約のある環境に適したコンパクトな表現を維持しながら、既存の不整合アプローチよりも優れていることが示された。
関連論文リスト
- Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets [13.22969334943219]
本稿では,新しいユニレベルビデオデータセット蒸留フレームワークを提案する。
時間的冗長性に対処し,運動の保存性を高めるため,時間的サリエンシ誘導フィルタリング機構を導入する。
本手法は, 実データと蒸留ビデオデータとのギャップを埋めて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T04:02:57Z) - Condensing Action Segmentation Datasets via Generative Network Inversion [37.78120420622088]
本研究は、時間的アクションセグメンテーションに使用される手続き的ビデオデータセットに対する最初の凝縮アプローチを示す。
本稿では,データセットとネットワークのインバージョンから得られた生成的事前学習を利用して,データをコンパクトな潜在コードに変換する凝縮フレームワークを提案する。
標準ベンチマークによる評価は,TASデータセットの凝縮と競合性能の達成に一貫した有効性を示す。
論文 参考訳(メタデータ) (2025-03-18T10:29:47Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - Event-based Video Frame Interpolation with Edge Guided Motion Refinement [28.331148083668857]
本稿では,イベント信号のエッジ特徴を効果的に活用するためのエンドツーエンドE-VFI学習手法を提案する。
提案手法にはエッジガイド・アテンテーティブ(EGA)モジュールが組み込まれており,アテンテーティブアグリゲーションによって推定された映像の動きを補正する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-28T12:13:34Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。