論文の概要: DSS-Prompt: Dynamic-Static Synergistic Prompting for Few-Shot Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2508.09785v1
- Date: Wed, 13 Aug 2025 13:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.895575
- Title: DSS-Prompt: Dynamic-Static Synergistic Prompting for Few-Shot Class-Incremental Learning
- Title(参考訳): DSS-Prompt:Few-Shot Class-Incremental Learningのための動的統計的相乗的プロンプト
- Authors: Linpu He, Yanan Li, Bingze Li, Elvis Han Cui, Donghui Wang,
- Abstract要約: DSS-Promptは、トレーニング済みのビジョントランスを最小限の修正で変換する、シンプルで効果的なアプローチである。
DSS-Promptの有効性を検証するため、4つのベンチマークで広範な実験を行った。
すべてのデータセットに対する既存のアプローチよりも優れたパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 4.957021413601961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from large-scale pre-trained models with strong generalization ability has shown remarkable success in a wide range of downstream tasks recently, but it is still underexplored in the challenging few-shot class-incremental learning (FSCIL) task. It aims to continually learn new concepts from limited training samples without forgetting the old ones at the same time. In this paper, we introduce DSS-Prompt, a simple yet effective approach that transforms the pre-trained Vision Transformer with minimal modifications in the way of prompts into a strong FSCIL classifier. Concretely, we synergistically utilize two complementary types of prompts in each Transformer block: static prompts to bridge the domain gap between the pre-training and downstream datasets, thus enabling better adaption; and dynamic prompts to capture instance-aware semantics, thus enabling easy transfer from base to novel classes. Specially, to generate dynamic prompts, we leverage a pre-trained multi-modal model to extract input-related diverse semantics, thereby generating complementary input-aware prompts, and then adaptively adjust their importance across different layers. In this way, on top of the prompted visual embeddings, a simple prototype classifier can beat state-of-the-arts without further training on the incremental tasks. We conduct extensive experiments on four benchmarks to validate the effectiveness of our DSS-Prompt and show that it consistently achieves better performance than existing approaches on all datasets and can alleviate the catastrophic forgetting issue as well.
- Abstract(参考訳): 強力な一般化能力を持つ大規模事前学習モデルからの学習は、近年、広範囲の下流タスクで顕著に成功したが、それでも挑戦的な数発のクラスインクリメンタルラーニング(FSCIL)タスクでは未探索である。
古い概念を忘れずに、限られたトレーニングサンプルから新しい概念を継続的に学習することを目的としている。
本稿では、プリトレーニングされたビジョントランスを、プロンプトの最小限の修正で強力なFSCIL分類器に変換する、シンプルで効果的なアプローチであるDSS-Promptを紹介する。
具体的には,各Transformerブロック内の2つの補完的なプロンプトを相乗的に活用する: トレーニング前のデータセットと下流データセットのドメインギャップをブリッジする静的プロンプトにより,適応性が向上し,インスタンス認識セマンティクスをキャプチャする動的プロンプトにより,ベースから新しいクラスへの移動が容易になる。
特に、動的プロンプトを生成するために、事前学習されたマルチモーダルモデルを用いて、入力に関連する多様なセマンティクスを抽出し、補完的なインプット・アウェア・プロンプトを生成し、異なるレイヤ間でそれらの重要性を適応的に調整する。
このようにして、インクリメンタルなタスクをトレーニングすることなく、インクリメンタルな埋め込みに加えて、単純なプロトタイプの分類器が最先端のタスクを破ることができる。
我々は、DSS-Promptの有効性を検証するために、4つのベンチマークで広範な実験を行い、既存のすべてのデータセットのアプローチよりも一貫して優れたパフォーマンスを実現し、破滅的な忘れの問題も軽減できることを示した。
関連論文リスト
- Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
本稿では,事前学習したグラフニューラルネットワークを下流タスクやデータに適用するためのマルチモーダル・プロンプト学習パラダイムを提案する。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
私たちは、GNNを極めて弱いテキスト管理で見えないクラスに一般化できるCLIPスタイルのゼロショット分類プロトタイプを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。