論文の概要: Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2509.06306v1
- Date: Mon, 08 Sep 2025 03:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.953835
- Title: Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning
- Title(参考訳): メモリガイドによるコントラスト学習によるビデオベース一般化カテゴリー探索
- Authors: Zhang Jing, Pu Nan, Xie Yu Xiang, Guo Yanming, Lu Qianqi, Zou Shiwei, Yan Jie, Chen Yan,
- Abstract要約: Generalized Category Discovery (GCD)は、先進的で挑戦的なオープンワールド問題である。
既存のGCD手法の多くは静的画像のカテゴリ発見に重点を置いている。
我々は、GCD問題をビデオ領域に拡張し、ビデオ-GCDと呼ばれる新しい設定を導入する。
- 参考スコア(独自算出の注目度): 3.7666592096735587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) is an emerging and challenging open-world problem that has garnered increasing attention in recent years. Most existing GCD methods focus on discovering categories in static images. However, relying solely on static visual content is often insufficient to reliably discover novel categories. To bridge this gap, we extend the GCD problem to the video domain and introduce a new setting, termed Video-GCD. Thus, effectively integrating multi-perspective information across time is crucial for accurate Video-GCD. To tackle this challenge, we propose a novel Memory-guided Consistency-aware Contrastive Learning (MCCL) framework, which explicitly captures temporal-spatial cues and incorporates them into contrastive learning through a consistency-guided voting mechanism. MCCL consists of two core components: Consistency-Aware Contrastive Learning(CACL) and Memory-Guided Representation Enhancement (MGRE). CACL exploits multiperspective temporal features to estimate consistency scores between unlabeled instances, which are then used to weight the contrastive loss accordingly. MGRE introduces a dual-level memory buffer that maintains both feature-level and logit-level representations, providing global context to enhance intra-class compactness and inter-class separability. This in turn refines the consistency estimation in CACL, forming a mutually reinforcing feedback loop between representation learning and consistency modeling. To facilitate a comprehensive evaluation, we construct a new and challenging Video-GCD benchmark, which includes action recognition and bird classification video datasets. Extensive experiments demonstrate that our method significantly outperforms competitive GCD approaches adapted from image-based settings, highlighting the importance of temporal information for discovering novel categories in videos. The code will be publicly available.
- Abstract(参考訳): 一般化カテゴリー発見(Generalized Category Discovery, GCD)は、近年注目を集めている、新興で挑戦的なオープンワールド問題である。
既存のGCD手法の多くは静的画像のカテゴリ発見に重点を置いている。
しかし、静的な視覚コンテンツにのみ依存することは、しばしば新しいカテゴリーを確実に発見するには不十分である。
このギャップを埋めるために、GCD問題をビデオ領域に拡張し、ビデオ-GCDと呼ばれる新しい設定を導入する。
したがって、時間にわたって多視点情報を効果的に統合することは、正確なビデオGCDにとって不可欠である。
この課題に対処するために,時間空間的手がかりを明示的にキャプチャし,整合性誘導型投票機構を通じてコントラスト学習に組み込む,新しいメモリガイド型コントラスト学習(MCCL)フレームワークを提案する。
MCCL は Consistency-Aware Contrastive Learning (CACL) と Memory-Guided Representation Enhancement (MGRE) の2つのコアコンポーネントで構成されている。
CACLは、マルチパースペクティブな時間的特徴を利用して、ラベルのないインスタンス間の一貫性スコアを推定し、それに従ってコントラスト的な損失を重み付けする。
MGREは、機能レベルとロジットレベルの両方の表現を維持するデュアルレベルメモリバッファを導入し、クラス内のコンパクト性とクラス間の分離性を高めるグローバルなコンテキストを提供する。
これによりCACLの整合性推定が洗練され、表現学習と整合性モデリングの間に相互に強化されたフィードバックループを形成する。
包括的評価を容易にするため,アクション認識と鳥分類ビデオデータセットを含む,新しい挑戦的なビデオ-GCDベンチマークを構築した。
広汎な実験により,ビデオ内の新たなカテゴリを発見する上での時間情報の重要性を強調し,画像ベース設定から適応した競合GCDアプローチを著しく上回る結果が得られた。
コードは公開されます。
関連論文リスト
- Happy: A Debiased Learning Framework for Continual Generalized Category Discovery [54.54153155039062]
本稿では,C-GCD(Continuous Generalized Category Discovery)の未探索課題について考察する。
C-GCDは、学習済みのクラスを認識する能力を維持しながら、ラベルのないデータから新しいクラスを漸進的に発見することを目的としている。
本稿では,ハードネスを意識したプロトタイプサンプリングとソフトエントロピー正規化を特徴とする,偏りのある学習フレームワークであるHappyを紹介する。
論文 参考訳(メタデータ) (2024-10-09T04:18:51Z) - PromptCCD: Learning Gaussian Mixture Prompt Pool for Continual Category Discovery [60.960147451219946]
連続カテゴリー発見 (Continuous Category Discovery, CCD) は、ラベルなしデータの連続ストリームにおいて、新しいカテゴリを自動的に発見することを目的としている。
本稿では,ガウス混合モデル(GMM)をCCDのプロンプト手法として利用するフレームワークであるPromptCCDを提案する。
我々は、一般化カテゴリー発見(GCD)の標準評価基準をCCDに拡張し、様々な公開データセットの最先端手法をベンチマークする。
論文 参考訳(メタデータ) (2024-07-26T17:59:51Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。