論文の概要: Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning
- arxiv url: http://arxiv.org/abs/2305.18418v2
- Date: Wed, 28 Jun 2023 12:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:43:33.786825
- Title: Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning
- Title(参考訳): ビデオ連続学習のための時間情報の再検討
- Authors: Lama Alssum, Juan Leon Alcazar, Merey Ramazanova, Chen Zhao, Bernard
Ghanem
- Abstract要約: 個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
- 参考スコア(独自算出の注目度): 58.7097258722291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-incremental learning is one of the most important settings for the
study of Continual Learning, as it closely resembles real-world application
scenarios. With constrained memory sizes, catastrophic forgetting arises as the
number of classes/tasks increases. Studying continual learning in the video
domain poses even more challenges, as video data contains a large number of
frames, which places a higher burden on the replay memory. The current common
practice is to sub-sample frames from the video stream and store them in the
replay memory. In this paper, we propose SMILE a novel replay mechanism for
effective video continual learning based on individual/single frames. Through
extensive experimentation, we show that under extreme memory constraints, video
diversity plays a more significant role than temporal information. Therefore,
our method focuses on learning from a small number of frames that represent a
large number of unique videos. On three representative video datasets,
Kinetics, UCF101, and ActivityNet, the proposed method achieves
state-of-the-art performance, outperforming the previous state-of-the-art by up
to 21.49%.
- Abstract(参考訳): クラス増分学習は、現実世界のアプリケーションシナリオによく似ているため、継続的学習の研究において最も重要な設定の1つである。
メモリサイズが制限されると、クラスやタスクの数が増えると、壊滅的な忘れることになる。
ビデオ領域での継続的な学習は、ビデオデータが大量のフレームを含んでいるため、リプレイメモリにより高い負担がかかるため、さらに課題となる。
現在の一般的なプラクティスは、ビデオストリームからサブサンプルのフレームをリプレイメモリに格納することです。
本稿では,個別フレームに基づく効果的なビデオ連続学習のための新しい再生機構SMILEを提案する。
広範にわたる実験により,映像の多様性は時間的情報よりも重要な役割を担っていることが明らかとなった。
そこで本手法は,多数の一意なビデオを表す少数のフレームから学習することに焦点を当てている。
3つの代表的なビデオデータセット、kinetics, ucf101, activitynetにおいて、提案手法は最先端の性能を最大21.49%向上させた。
関連論文リスト
- ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。