論文の概要: CRAM: Large-scale Video Continual Learning with Bootstrapped Compression
- arxiv url: http://arxiv.org/abs/2508.05001v1
- Date: Thu, 07 Aug 2025 03:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.696258
- Title: CRAM: Large-scale Video Continual Learning with Bootstrapped Compression
- Title(参考訳): CRAM:ブートストラップ圧縮による大規模ビデオ連続学習
- Authors: Shivani Mall, Joao F. Henriques,
- Abstract要約: 連続学習(CL)は、ニューラルネットワークがIIDサンプリングではなく、入力の連続ストリームから学ぶことを約束する。
メモリバッファから過去のサンプルを補強するリハーサルベースのアプローチを用いたビデオCLに焦点を当てた。
そこで本稿では,従来型のネットワークを慎重に圧縮し,新しいネットワークで再圧縮する必要があるビデオ符号をリフレッシュすることで,この忘れを解消する手法を提案する。
- 参考スコア(独自算出の注目度): 4.304743423080129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) promises to allow neural networks to learn from continuous streams of inputs, instead of IID (independent and identically distributed) sampling, which requires random access to a full dataset. This would allow for much smaller storage requirements and self-sufficiency of deployed systems that cope with natural distribution shifts, similarly to biological learning. We focus on video CL employing a rehearsal-based approach, which reinforces past samples from a memory buffer. We posit that part of the reason why practical video CL is challenging is the high memory requirements of video, further exacerbated by long-videos and continual streams, which are at odds with the common rehearsal-buffer size constraints. To address this, we propose to use compressed vision, i.e. store video codes (embeddings) instead of raw inputs, and train a video classifier by IID sampling from this rolling buffer. Training a video compressor online (so not depending on any pre-trained networks) means that it is also subject to catastrophic forgetting. We propose a scheme to deal with this forgetting by refreshing video codes, which requires careful decompression with a previous version of the network and recompression with a new one. We name our method Continually Refreshed Amodal Memory (CRAM). We expand current video CL benchmarks to large-scale settings, namely EpicKitchens-100 and Kinetics-700, storing thousands of relatively long videos in under 2 GB, and demonstrate empirically that our video CL method outperforms prior art with a significantly reduced memory footprint.
- Abstract(参考訳): 連続学習(CL)は、ニューラルネットワークがIIDサンプリングではなく、入力の連続ストリームから学習できるようにする。
これにより、生物学的学習と同様に、自然な分散シフトに対処するデプロイシステムの、はるかに少ないストレージ要件と自己充足が可能になる。
メモリバッファから過去のサンプルを補強するリハーサルベースのアプローチを用いたビデオCLに焦点を当てた。
本稿では,ビデオCLが課題となっている理由の一つとして,ビデオの高メモリ要求が長ビデオや連続ストリームによってさらに悪化し,一般的なリハーサルバッファサイズ制約に反する理由を挙げる。
そこで本研究では,圧縮ビジョン,すなわち生の入力の代わりにビデオコード(埋め込み)を格納し,このローリングバッファからIIDサンプリングによりビデオ分類器を訓練する手法を提案する。
オンラインでビデオ圧縮機を訓練する(事前訓練されたネットワークに依存しない)ということは、破滅的な忘れがもたらされることを意味する。
そこで本稿では,従来型のネットワークを慎重に圧縮し,新しいネットワークで再圧縮する必要があるビデオ符号をリフレッシュすることで,この忘れを解消する手法を提案する。
提案手法をCRAM (Continuous Refreshed Amodal Memory) と呼ぶ。
現在のビデオCLベンチマークを大規模な設定、すなわちEpicKitchens-100とKineetics-700に拡張し、数千の比較的長いビデオを2GB以下で保存し、我々のビデオCLメソッドがメモリフットプリントを大幅に減らして先行技術より優れていることを実証的に実証した。
関連論文リスト
- Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory [5.311777874655448]
Long-Video Memory Network、Long-VMNetは、新しいビデオ理解手法である。
Long-VMNetは、識別トークンを識別するニューラルサンプリングを利用することにより、効率の向上を実現している。
本研究では,Rest-ADLデータセットを用いて,長文ビデオ検索と回答のための推論時間を18~75倍改善したことを示す。
論文 参考訳(メタデータ) (2025-03-17T20:25:41Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Hierarchical Memory for Long Video QA [78.72965584414368]
本稿では,LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA) のチャンピオンソリューションについて述べる。
我々は、限られたGPUメモリ(VRAM)で長いビデオを処理できるSTARメモリという階層的なメモリ機構を採用した。
さらに,MovieChat-1K トレーニングセットの映像と音声データを利用して,Flash-VStream がリリースした事前学習重量を微調整し,課題の1位を達成した。
論文 参考訳(メタデータ) (2024-06-30T06:08:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。