論文の概要: Towards Robust Visual Continual Learning with Multi-Prototype Supervision
- arxiv url: http://arxiv.org/abs/2509.16011v1
- Date: Fri, 19 Sep 2025 14:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.197159
- Title: Towards Robust Visual Continual Learning with Multi-Prototype Supervision
- Title(参考訳): マルチプロトタイプ・スーパービジョンによるロバストな視覚連続学習に向けて
- Authors: Xiwei Liu, Yulong Li, Yichen Li, Xinlin Zhuang, Haolin Yang, Huifa Li, Imran Razzak,
- Abstract要約: MuproCLは、単一のターゲットを複数のコンテキスト対応プロトタイプに置き換える新しいフレームワークである。
LogSumExpアグリゲーションメカニズムにより、視覚モデルは与えられた画像の最も関連性の高いプロトタイプと適応的に整合することができる。
- 参考スコア(独自算出の注目度): 24.987400887222762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided supervision, which utilizes a frozen semantic target from a Pretrained Language Model (PLM), has emerged as a promising paradigm for visual Continual Learning (CL). However, relying on a single target introduces two critical limitations: 1) semantic ambiguity, where a polysemous category name results in conflicting visual representations, and 2) intra-class visual diversity, where a single prototype fails to capture the rich variety of visual appearances within a class. To this end, we propose MuproCL, a novel framework that replaces the single target with multiple, context-aware prototypes. Specifically, we employ a lightweight LLM agent to perform category disambiguation and visual-modal expansion to generate a robust set of semantic prototypes. A LogSumExp aggregation mechanism allows the vision model to adaptively align with the most relevant prototype for a given image. Extensive experiments across various CL baselines demonstrate that MuproCL consistently enhances performance and robustness, establishing a more effective path for language-guided continual learning.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)から凍結したセマンティックターゲットを利用する言語誘導型監視は、視覚的連続学習(CL)のための有望なパラダイムとして登場した。
しかし、1つのターゲットに依存すると、2つの重要な制限が生じる。
1) 意味的曖昧さ,多義的カテゴリー名が相反する視覚表現をもたらす,
2) クラス内の視覚的多様性は,1つのプロトタイプでクラス内の多様な視覚的外観をキャプチャできない。
この目的のために,単一ターゲットを複数のコンテキスト対応プロトタイプに置き換える新しいフレームワークであるMuproCLを提案する。
具体的には、軽量なLLMエージェントを用いてカテゴリの曖昧さと視覚的モーダル拡張を行い、堅牢なセマンティックプロトタイプを生成する。
LogSumExpアグリゲーションメカニズムにより、視覚モデルは与えられた画像の最も関連性の高いプロトタイプと適応的に整合することができる。
様々なCLベースラインにわたる大規模な実験により、MuproCLは一貫して性能と堅牢性を向上し、言語指導による継続的な学習のためのより効果的なパスを確立している。
関連論文リスト
- Learning Yourself: Class-Incremental Semantic Segmentation with Language-Inspired Bootstrapped Disentanglement [10.912635927529218]
CISS(Class-Incremental Semantic)は、過去の授業の知識を維持しながら、新しく導入されたクラスの継続的な学習を必要とする。
この現象には、インクリメンタルなプロセス中に意味的ミスアライメントによって引き起こされるプロトタイプ・フィーチャー・エンタングルメントと、動的データ進化によるバックグラウンド・インクリメント・エンタングルメントが含まれる。
言語にインスパイアされたBootstrapped Disentanglement framework (LBD)を紹介する。
我々はPascal VOCとADE20kの両方で、特にマルチステップシナリオで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-30T15:18:58Z) - Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。