Fugu-MT 論文翻訳(概要): A Large-Scale Study on Video Action Dataset Condensation

論文の概要: A Large-Scale Study on Video Action Dataset Condensation

arxiv url: http://arxiv.org/abs/2412.21197v1
Date: Mon, 30 Dec 2024 18:58:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.853843
Title: A Large-Scale Study on Video Action Dataset Condensation
Title（参考訳）: ビデオアクションデータセット凝縮に関する大規模研究
Authors: Yang Chen, Sheng Guo, Limin Wang,
Abstract要約: 本研究では,画像とビデオのデータセットの縮合のギャップを,体系的な設計と公正な比較による大規模な実証的研究によって埋めることを目的としている。具体的には,(1)ビデオデータの時間的処理,(2)ビデオデータセットの凝縮に関する包括的な評価プロトコルの確立,(3)時間領域への凝縮法の適用,およびそれら間の公正な比較という,貴重な経験的洞察を提供するための3つの重要な側面を考察する。
参考スコア（独自算出の注目度）: 23.37158576478389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dataset condensation has made significant progress in the image domain. Unlike images, videos possess an additional temporal dimension, which harbors considerable redundant information, making condensation even more crucial. However, video dataset condensation still remains an underexplored area. We aim to bridge this gap by providing a large-scale empirical study with systematic design and fair comparison. Specifically, our work delves into three key aspects to provide valuable empirical insights: (1) temporal processing of video data, (2) establishing a comprehensive evaluation protocol for video dataset condensation, and (3) adaptation of condensation methods to the space-time domain and fair comparisons among them. From this study, we derive several intriguing observations: (i) sample diversity appears to be more crucial than temporal diversity for video dataset condensation, (ii) simple slide-window sampling proves to be effective, and (iii) sample selection currently outperforms dataset distillation in most cases. Furthermore, we conduct experiments on three prominent action recognition datasets (HMDB51, UCF101 and Kinetics-400) and achieve state-of-the-art results on all of them. Our code is available at https://github.com/MCG-NJU/Video-DC.
Abstract（参考訳）: データセットの凝縮は画像領域において大きな進歩を遂げた。画像とは異なり、ビデオには追加の時間次元があり、かなりの冗長な情報を持っているため、凝縮はさらに重要である。しかし、ビデオデータセットの凝縮はいまだ未発見の領域である。我々は、体系的な設計と公正な比較による大規模な実証的研究を提供することで、このギャップを埋めることを目指している。具体的には,(1)ビデオデータの時間的処理,(2)ビデオデータセットの凝縮に関する包括的な評価プロトコルの確立,(3)時間領域への凝縮法の適用,およびそれら間の公正な比較という,貴重な経験的洞察を提供するための3つの重要な側面を考察する。そこで本研究では,いくつかの興味深い観察結果を得た。 (i)サンプルの多様性はビデオデータセットの凝縮において時間的多様性よりも重要であると考えられる。 (II)簡単なスライドウインドウサンプリングは有効であることが証明され、三サンプル選択は、ほとんどの場合、データセット蒸留より優れている。さらに,3つの顕著な行動認識データセット (HMDB51, UCF101, Kinetics-400) について実験を行い,そのすべてについて最先端の結果を得た。私たちのコードはhttps://github.com/MCG-NJU/Video-DCで公開されています。

関連論文リスト

Dataset Condensation with Color Compensation [1.8962690634270805]
画像レベルの選択方法(コアセット選択、データセット量子化)は、凝縮不効率に悩まされる。データセットの凝縮における重要な問題は、情報キャリアと基本的な意味表現ユニットとしてのカラーの二重の役割の監視である。我々は、Color Compensationを用いたデータセット凝縮フレームワークDC3を提案する。
論文参考訳（メタデータ） (2025-08-02T01:44:23Z)
PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion [22.804486552524885]
本稿では,ビデオデータセット凝縮のためのプログレッシブ・リファインメント・インサーション・フォー・スパース・モーション(PRISM)を提案する。静的コンテンツを動的運動から分離する従来の方法とは異なり、本手法はこれらの要素間の重要な相互依存を保存する。提案手法は,動作中の動作を完全に調整するためにフレームを段階的に洗練・挿入し,性能は向上するが,記憶力は低下する。
論文参考訳（メタデータ） (2025-05-28T16:42:10Z)
Latent Video Dataset Distillation [6.028880672839687]
本稿では,潜水空間で動作する新しいビデオデータセット蒸留手法を提案する。多様性を意識したデータ選択戦略を用いて,代表的なサンプルと多種多様なサンプルを選定する。また、潜在データセットをさらに圧縮するための、単純でトレーニング不要な手法も導入する。
論文参考訳（メタデータ） (2025-04-23T22:50:39Z)
Condensing Action Segmentation Datasets via Generative Network Inversion [37.78120420622088]
本研究は、時間的アクションセグメンテーションに使用される手続き的ビデオデータセットに対する最初の凝縮アプローチを示す。本稿では,データセットとネットワークのインバージョンから得られた生成的事前学習を利用して,データをコンパクトな潜在コードに変換する凝縮フレームワークを提案する。標準ベンチマークによる評価は,TASデータセットの凝縮と競合性能の達成に一貫した有効性を示す。
論文参考訳（メタデータ） (2025-03-18T10:29:47Z)
Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文参考訳（メタデータ） (2024-11-28T05:37:54Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文参考訳（メタデータ） (2024-07-29T02:12:11Z)
On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文参考訳（メタデータ） (2023-08-14T12:58:02Z)
When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study [135.19004496785408]
Super Resolution (SR) と Camouflaged Object Detection (COD) は、コンピュータビジョンにおける様々なジョイントアプリケーションとのホットトピックである。我々は、一般的なCODデータセット上で異なる超解像法をベンチマークする。 SR法により処理されたCODデータを用いて,異なるCODモデルのロバスト性を評価する。
論文参考訳（メタデータ） (2023-08-08T16:17:46Z)
TempNet: Temporal Attention Towards the Detection of Animal Behaviour in Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。 TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文参考訳（メタデータ） (2022-11-17T23:55:12Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Inductive and Transductive Few-Shot Video Classification via Appearance and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文参考訳（メタデータ） (2022-07-21T23:28:52Z)
DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文参考訳（メタデータ） (2022-07-20T03:54:05Z)
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-12-07T18:57:37Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Selective Feature Compression for Efficient Activity Recognition Inference [26.43512549990624]
選択的特徴圧縮(SFC)は、精度の妥協なくモデル推論効率を大幅に向上させるアクション認識推論戦略です。 Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度プロシージャサンプリングと比較して, 推論速度を6～7倍, 寸法使用量を5～6倍削減できることがわかった。
論文参考訳（メタデータ） (2021-04-01T00:54:51Z)
NUTA: Non-uniform Temporal Aggregation for Action Recognition [29.75987323741384]
非一様時間集合(NUTA)と呼ばれる手法を提案し,情報的時間セグメントのみから特徴を集約する。我々のモデルは、広く使われている4つの大規模行動認識データセットで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2020-12-15T02:03:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。