論文の概要: ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2508.10896v1
- Date: Thu, 14 Aug 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.448485
- Title: ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning
- Title(参考訳): ESSENTIAL:ビデオ授業増分学習のためのエピソードとセマンティックメモリの統合
- Authors: Jongseo Lee, Kyungho Bae, Kyle Min, Gyeong-Moon Park, Jinwoo Choi,
- Abstract要約: ESSENTIALは、時間的にスパースな特徴を記憶するためのエピソードメモリと、学習可能なプロンプトで表される一般的な知識を記憶するためのセマンティックメモリから構成される。
本稿では,エピソードメモリとセマンティックプロンプトをクロスアテンションを通じて統合した新しいメモリ検索(MR)モジュールを提案する。
注目すべきは、メモリの大幅な削減により、ESSENTIALはベンチマークで良好なパフォーマンスを達成することだ。
- 参考スコア(独自算出の注目度): 8.958316945958025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we tackle the problem of video classincremental learning (VCIL). Many existing VCIL methods mitigate catastrophic forgetting by rehearsal training with a few temporally dense samples stored in episodic memory, which is memory-inefficient. Alternatively, some methods store temporally sparse samples, sacrificing essential temporal information and thereby resulting in inferior performance. To address this trade-off between memory-efficiency and performance, we propose EpiSodic and SEmaNTIc memory integrAtion for video class-incremental Learning (ESSENTIAL). ESSENTIAL consists of episodic memory for storing temporally sparse features and semantic memory for storing general knowledge represented by learnable prompts. We introduce a novel memory retrieval (MR) module that integrates episodic memory and semantic prompts through cross-attention, enabling the retrieval of temporally dense features from temporally sparse features. We rigorously validate ESSENTIAL on diverse datasets: UCF-101, HMDB51, and Something-Something-V2 from the TCD benchmark and UCF-101, ActivityNet, and Kinetics-400 from the vCLIMB benchmark. Remarkably, with significantly reduced memory, ESSENTIAL achieves favorable performance on the benchmarks.
- Abstract(参考訳): 本研究では,ビデオ・クラスインクリメンタル・ラーニング(VCIL)の問題に取り組む。
既存のVCIL法の多くは、メモリ非効率なエピソードメモリに保存された数個の時間的に密度の高いサンプルによるリハーサルトレーニングによって破滅的な忘れを軽減している。
あるいは、時間的にスパースなサンプルを格納し、重要な時間的情報を犠牲にして、結果として性能が低下するメソッドもある。
メモリ効率と性能のトレードオフに対処するため,ビデオクラス増分学習(ESSENTIAL)のためのEpiSodicとSEmaNTIcメモリインテグレーションを提案する。
ESSENTIALは、時間的にスパースな特徴を記憶するためのエピソードメモリと、学習可能なプロンプトで表される一般的な知識を記憶するためのセマンティックメモリから構成される。
本稿では,時間的に疎い特徴から時間的に高密度な特徴を検索できる新しいメモリ検索(MR)モジュールを提案する。
TCDベンチマークではUCF-101,HMDB51,Something-V2,vCLIMBベンチマークではUCF-101,ActivityNet,Kineetics-400という,さまざまなデータセットでESSENTIALを厳格に検証している。
注目すべきは、メモリの大幅な削減により、ESSENTIALはベンチマークで良好なパフォーマンスを達成することだ。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Sequential memory improves sample and memory efficiency in Episodic Control [0.0]
最先端の強化学習アルゴリズムは、パフォーマンスを達成するために必要なエピソードの数が多いため、サンプル非効率である。
哺乳類の海馬にインスパイアされたERLアルゴリズムは、通常、拡張メモリシステムを使用して過去の出来事から学習をブートストラップし、このサンプル非効率問題を克服する。
ここでは、エピソードサンプリングの順序から得られる取得メモリ内容のバイアスを含めることで、エピソード制御アルゴリズムのサンプリングとメモリ効率が向上することを示す。
論文 参考訳(メタデータ) (2021-12-29T18:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。