論文の概要: Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management
- arxiv url: http://arxiv.org/abs/2601.14069v1
- Date: Tue, 20 Jan 2026 15:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.386059
- Title: Unsupervised Video Class-Incremental Learning via Deep Embedded Clustering Management
- Title(参考訳): ディープ組込みクラスタリング管理による教師なしビデオ授業インクリメンタルラーニング
- Authors: Nattapong Kurpukdee, Adrian G. Bors,
- Abstract要約: 教師なしビデオクラスインクリメンタルラーニング(uVCIL)は,忘れずにビデオ情報を学ぶための重要な学習パラダイムである。
我々は,uVCILに対処するためのシンプルで効果的なアプローチを提案する。
まず、クラスやタスク情報を仮定することなく、各タスク中に代表的ビデオ機能セットを提供する、深い特徴抽出ネットワークについて検討する。
- 参考スコア(独自算出の注目度): 47.53991869205973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video class incremental learning (uVCIL) represents an important learning paradigm for learning video information without forgetting, and without considering any data labels. Prior approaches have focused on supervised class-incremental learning, relying on using the knowledge of labels and task boundaries, which is costly, requires human annotation, or is simply not a realistic option. In this paper, we propose a simple yet effective approach to address the uVCIL. We first consider a deep feature extractor network, providing a set of representative video features during each task without assuming any class or task information. We then progressively build a series of deep clusters from the extracted features. During the successive task learning, the model updated from the previous task is used as an initial state in order to transfer knowledge to the current learning task. We perform in-depth evaluations on three standard video action recognition datasets, including UCF101, HMDB51, and Something-to-Something V2, by ignoring the labels from the supervised setting. Our approach significantly outperforms other baselines on all datasets.
- Abstract(参考訳): 教師なしビデオクラスインクリメンタルラーニング(uVCIL)は、ビデオ情報を忘れることなく、データラベルを考慮せずに学習するための重要な学習パラダイムである。
従来のアプローチでは、教師付きクラスインクリメンタルな学習に重点を置いており、ラベルやタスク境界の知識を使わずに、コストがかかり、人間のアノテーションが必要だったり、単に現実的な選択肢ではなかったりする。
本稿では,uVCILに対処するための,単純かつ効果的なアプローチを提案する。
まず、クラスやタスク情報を仮定することなく、各タスク中に代表的ビデオ機能セットを提供する、深い特徴抽出ネットワークについて検討する。
そして、抽出した機能から一連の深層クラスタを段階的に構築します。
連続したタスク学習の間、前タスクから更新されたモデルは、現在の学習タスクに知識を伝達するために初期状態として使用される。
UCF101、HMDB51、Somes-to-Something V2を含む3つの標準映像行動認識データセットの詳細な評価を行う。
当社のアプローチは,すべてのデータセットにおいて,他のベースラインよりも大幅に優れています。
関連論文リスト
- Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering [47.53991869205973]
本研究では,タスクの連続学習において,タスク境界もラベルも提供されない,教師なしのビデオ学習のための現実的なシナリオを提案する。
また、教師なしビデオ連続学習の未探索問題に対する非パラメトリック学習ソリューションも提供する。
論文 参考訳(メタデータ) (2025-08-29T16:49:03Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Incremental Learning from Low-labelled Stream Data in Open-Set Video
Face Recognition [0.0]
本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新しいインクリメンタル学習手法を提案する。
本手法は,教師なしの操作データを用いて認識性を向上させる。
結果は、非適応状態の方法に対する最大15%のF1スコア増加の利点を示しています。
論文 参考訳(メタデータ) (2020-12-17T13:28:13Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。