論文の概要: A Large-Scale Study on Video Action Dataset Condensation
- arxiv url: http://arxiv.org/abs/2412.21197v2
- Date: Wed, 12 Mar 2025 03:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:46.890528
- Title: A Large-Scale Study on Video Action Dataset Condensation
- Title(参考訳): ビデオアクションデータセット凝縮に関する大規模研究
- Authors: Yang Chen, Sheng Guo, Bo Zheng, Limin Wang,
- Abstract要約: 我々は,画像とビデオのデータセットの縮合のギャップを,体系的な設計と公正な比較による大規模研究によって埋めることを目的としている。
1)ビデオデータの時間的処理,(2)ビデオデータセットの凝縮評価プロトコル,(3)縮合アルゴリズムの時空領域への適応。
- 参考スコア(独自算出の注目度): 35.194593167922804
- License:
- Abstract: Recently, dataset condensation has made significant progress in the image domain. Unlike images, videos possess an additional temporal dimension, which harbors considerable redundant information, making condensation even more crucial. However, video dataset condensation still remains an underexplored area. We aim to bridge this gap by providing a large-scale study with systematic design and fair comparison. Specifically, our work delves into three key aspects to provide valuable empirical insights: (1) temporal processing of video data, (2) the evaluation protocol for video dataset condensation, and (3) adaptation of condensation algorithms to the space-time domain. From this study, we derive several intriguing observations: (i) labeling methods greatly influence condensation performance, (ii) simple sliding-window sampling is effective for temporal processing, and (iii) dataset distillation methods perform better in challenging scenarios, while sample selection methods excel in easier ones. Furthermore, we propose a unified evaluation protocol for the fair comparison of different condensation algorithms and achieve state-of-the-art results on four widely-used action recognition datasets: HMDB51, UCF101, SSv2 and K400. Our code is available at https://github.com/MCG-NJU/Video-DC.
- Abstract(参考訳): 近年,データセットの凝縮は画像領域において大きな進歩を遂げている。
画像とは異なり、ビデオには追加の時間次元があり、かなりの冗長な情報を持っているため、凝縮はさらに重要である。
しかし、ビデオデータセットの凝縮はいまだ未発見の領域である。
我々は、体系的な設計と公正な比較による大規模な研究を提供することで、このギャップを埋めることを目指している。
具体的には,(1)ビデオデータの時間的処理,(2)ビデオデータセットの凝縮評価プロトコル,(3)縮合アルゴリズムの時空領域への適応,という3つの重要な経験的洞察を提供する。
そこで本研究では,いくつかの興味深い観察結果を得た。
一 凝縮性能に大きな影響を及ぼす表示方法
(II) 時間的処理には簡易なスライディングウインドウサンプリングが有効であり、
三 データセット蒸留法は難解なシナリオにおいて優れ、サンプル選択法はより容易なシナリオで優れている。
さらに、異なる凝縮アルゴリズムの公正比較のための統一評価プロトコルを提案し、広く使われている4つのアクション認識データセット(HMDB51, UCF101, SSv2, K400)の最先端結果を得る。
私たちのコードはhttps://github.com/MCG-NJU/Video-DCで公開されています。
関連論文リスト
- Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-07-21T23:28:52Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - NUTA: Non-uniform Temporal Aggregation for Action Recognition [29.75987323741384]
非一様時間集合(NUTA)と呼ばれる手法を提案し,情報的時間セグメントのみから特徴を集約する。
我々のモデルは、広く使われている4つの大規模行動認識データセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2020-12-15T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。