論文の概要: Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering
- arxiv url: http://arxiv.org/abs/2508.21773v1
- Date: Fri, 29 Aug 2025 16:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.120831
- Title: Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering
- Title(参考訳): 非パラメトリックディープ組込みクラスタリングによる教師なしビデオ連続学習
- Authors: Nattapong Kurpukdee, Adrian G. Bors,
- Abstract要約: 本研究では,タスクの連続学習において,タスク境界もラベルも提供されない,教師なしのビデオ学習のための現実的なシナリオを提案する。
また、教師なしビデオ連続学習の未探索問題に対する非パラメトリック学習ソリューションも提供する。
- 参考スコア(独自算出の注目度): 47.53991869205973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a realistic scenario for the unsupervised video learning where neither task boundaries nor labels are provided when learning a succession of tasks. We also provide a non-parametric learning solution for the under-explored problem of unsupervised video continual learning. Videos represent a complex and rich spatio-temporal media information, widely used in many applications, but which have not been sufficiently explored in unsupervised continual learning. Prior studies have only focused on supervised continual learning, relying on the knowledge of labels and task boundaries, while having labeled data is costly and not practical. To address this gap, we study the unsupervised video continual learning (uVCL). uVCL raises more challenges due to the additional computational and memory requirements of processing videos when compared to images. We introduce a general benchmark experimental protocol for uVCL by considering the learning of unstructured video data categories during each task. We propose to use the Kernel Density Estimation (KDE) of deep embedded video features extracted by unsupervised video transformer networks as a non-parametric probabilistic representation of the data. We introduce a novelty detection criterion for the incoming new task data, dynamically enabling the expansion of memory clusters, aiming to capture new knowledge when learning a succession of tasks. We leverage the use of transfer learning from the previous tasks as an initial state for the knowledge transfer to the current learning task. We found that the proposed methodology substantially enhances the performance of the model when successively learning many tasks. We perform in-depth evaluations on three standard video action recognition datasets, including UCF101, HMDB51, and Something-to-Something V2, without using any labels or class boundaries.
- Abstract(参考訳): 本研究では,タスクの連続学習において,タスク境界もラベルも提供されない,教師なしのビデオ学習のための現実的なシナリオを提案する。
また、教師なしビデオ連続学習の未探索問題に対する非パラメトリック学習ソリューションも提供する。
ビデオは複雑で豊かな時空間メディア情報であり、多くのアプリケーションで広く使われているが、教師なし連続学習では十分に研究されていない。
これまでの研究は、ラベル付きデータの知識とタスク境界に頼って、教師付き連続学習にのみ焦点を当ててきたが、ラベル付きデータを持つことは費用がかかり実用的ではない。
このギャップに対処するため,教師なしビデオ連続学習(uVCL)について検討した。
uVCLは、画像と比較してビデオを処理する際の計算とメモリの要求が増大するため、さらなる課題を提起する。
タスク間の非構造化ビデオデータカテゴリの学習を考慮し,uVCLのための一般的なベンチマーク実験プロトコルを提案する。
本稿では、教師なしビデオトランスフォーマーネットワークによって抽出された深層ビデオ特徴のカーネル密度推定(KDE)を、データの非パラメトリック確率的表現として用いることを提案する。
本稿では,新たなタスクデータに対する新規検出基準を導入し,メモリクラスタの拡張を動的に実現し,タスクの継承を学習する際の新たな知識の獲得を目指す。
我々は,従来の課題から現在の学習課題への知識伝達の初期状態として,伝達学習の利用を活用している。
提案手法は,複数のタスクを連続的に学習する際のモデルの性能を大幅に向上させる。
我々は,UCF101,HMDB51,Some-to-Something V2を含む3つの標準ビデオ行動認識データセットに対して,ラベルやクラス境界を使わずに詳細な評価を行う。
関連論文リスト
- LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。
本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。
提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文 参考訳(メタデータ) (2025-02-20T19:34:58Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - COOLer: Class-Incremental Learning for Appearance-Based Multiple Object
Tracking [32.47215340215641]
本稿では,連続学習研究の範囲を,複数物体追跡(MOT)のためのクラス増分学習に拡張する。
オブジェクト検出器の連続学習のための従来のソリューションは、外見に基づくトラッカーのデータ関連ステージには対応していない。
我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。
論文 参考訳(メタデータ) (2023-10-04T17:49:48Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。