論文の概要: Learning a Condensed Frame for Memory-Efficient Video Class-Incremental
Learning
- arxiv url: http://arxiv.org/abs/2211.00833v1
- Date: Wed, 2 Nov 2022 02:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:18:36.091853
- Title: Learning a Condensed Frame for Memory-Efficient Video Class-Incremental
Learning
- Title(参考訳): メモリ効率の良いビデオ授業インクリメンタル学習のための凝縮フレームの学習
- Authors: Yixuan Pei, Zhiwu Qing, Jun Cen, Xiang Wang, Shiwei Zhang, Yaxiong
Wang, Mingqian Tang, Nong Sang, Xueming Qian
- Abstract要約: 本稿では,メモリ効率のよいビデオクラス増分学習手法であるFrameMakerを提案する。
FrameMakerは20%のメモリしか消費せず、最近の先進的なメソッドよりも優れたパフォーマンスを実現することができることを示す。
同じメモリ消費条件下では、FrameMakerは既存の最先端技術よりも、説得力のあるマージンで大幅に優れています。
- 参考スコア(独自算出の注目度): 41.514250287733354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent incremental learning for action recognition usually stores
representative videos to mitigate catastrophic forgetting. However, only a few
bulky videos can be stored due to the limited memory. To address this problem,
we propose FrameMaker, a memory-efficient video class-incremental learning
approach that learns to produce a condensed frame for each selected video.
Specifically, FrameMaker is mainly composed of two crucial components: Frame
Condensing and Instance-Specific Prompt. The former is to reduce the memory
cost by preserving only one condensed frame instead of the whole video, while
the latter aims to compensate the lost spatio-temporal details in the Frame
Condensing stage. By this means, FrameMaker enables a remarkable reduction in
memory but keep enough information that can be applied to following incremental
tasks. Experimental results on multiple challenging benchmarks, i.e., HMDB51,
UCF101 and Something-Something V2, demonstrate that FrameMaker can achieve
better performance to recent advanced methods while consuming only 20% memory.
Additionally, under the same memory consumption conditions, FrameMaker
significantly outperforms existing state-of-the-arts by a convincing margin.
- Abstract(参考訳): 最近の行動認識のためのインクリメンタル学習は、通常、破滅的な忘れを緩和するために代表ビデオを保存する。
しかし、メモリが限られているため保存できるビデオはごくわずかである。
この問題に対処するために,記憶効率の高いビデオクラス増分学習手法であるFrameMakerを提案する。
具体的には、framemakerは主に2つの重要なコンポーネントで構成されています。
前者はビデオ全体ではなく1フレームだけを保存してメモリコストを削減し、後者はフレーム凝縮段階で失われた時空間的詳細を補うことを目的としている。
つまり、FrameMakerはメモリの大幅な削減を可能にするが、インクリメンタルなタスクに適用される十分な情報を保持することができる。
HMDB51、UCF101、Something V2といった複数の挑戦的なベンチマークの実験結果によると、FrameMakerは20%のメモリしか消費せず、最近の先進的なメソッドよりも優れたパフォーマンスを実現できる。
さらに、同じメモリ消費条件下では、FrameMakerは既存の最先端技術よりもかなり優れている。
関連論文リスト
- Memory-Efficient Continual Learning Object Segmentation for Long Video [7.9190306016374485]
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
論文 参考訳(メタデータ) (2023-09-26T21:22:03Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。