論文の概要: Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.09296v1
- Date: Thu, 14 Mar 2024 11:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:47:15.576712
- Title: Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language Models
- Title(参考訳): 選択・希釈:視覚言語モデルに基づく連続学習のための選択的デュアル教師知識伝達
- Authors: Yu-Chu Yu, Chi-Pin Huang, Jr-Jen Chen, Kai-Po Chang, Yung-Hsuan Lai, Fu-En Yang, Yu-Chiang Frank Wang,
- Abstract要約: 大規模視覚言語モデル(VLM)は、目に見えない領域データに対して強力なゼロショット一般化能力を示す。
本稿では,学習済みの知識とゼロショット機能を保持するために,選択型デュアル教師知識伝達フレームワークを提案する。
提案手法は,破壊的忘れとゼロショット劣化を防止するための最先端の継続的学習手法に好適である。
- 参考スコア(独自算出の注目度): 22.858729285845243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (VLMs) have shown a strong zero-shot generalization capability on unseen-domain data. However, when adapting pre-trained VLMs to a sequence of downstream tasks, they are prone to forgetting previously learned knowledge and degrade their zero-shot classification capability. To tackle this problem, we propose a unique Selective Dual-Teacher Knowledge Transfer framework that leverages the most recent fine-tuned and the original pre-trained VLMs as dual teachers to preserve the previously learned knowledge and zero-shot capabilities, respectively. With only access to an unlabeled reference dataset, our proposed framework performs a selective knowledge distillation mechanism by measuring the feature discrepancy from the dual teacher VLMs. Consequently, our selective dual-teacher knowledge distillation would mitigate catastrophic forgetting of previously learned knowledge while preserving the zero-shot capabilities from pre-trained VLMs. Through extensive experiments on benchmark datasets, we show that our proposed framework is favorable against state-of-the-art continual learning approaches for preventing catastrophic forgetting and zero-shot degradation.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、目に見えない領域データに対して強力なゼロショット一般化能力を示す。
しかし、訓練済みのVLMを一連の下流タスクに適応させると、学習済みの知識を忘れてしまい、ゼロショット分類能力が低下する傾向にある。
この問題に対処するために,直近の微調整VLMと事前学習VLMを2つの教師として活用して,学習済みの知識とゼロショットの能力をそれぞれ保持する,独自の選択型デュアル教師ナレッジトランスファーフレームワークを提案する。
提案手法は,ラベルのない参照データセットにのみアクセスすることで,二元的教師VLMとの特徴差を測定することにより,選択的な知識蒸留機構を実現する。
その結果, 予備学習VLMのゼロショット能力を保ちながら, 従来学習されていた知識の破滅的な忘れを軽減できる可能性が示唆された。
ベンチマークデータセットに関する広範な実験を通じて、我々の提案するフレームワークは、破滅的な忘れ込みやゼロショット劣化を防止するための最先端の継続的学習アプローチに対して好適であることを示す。
関連論文リスト
- Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
既存のメソッドは、しばしば追加の参照データ、分散やドメイン予測のための独立したコンポーネントに依存します。
本稿では,動的ランク選択型低ランク適応(LoRA)を提案する。
本手法は,学習済みの知識とCL中に獲得した知識の両方を保持することで,学習済みのVLMを継続的に強化する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Decision Boundary-aware Knowledge Consolidation Generates Better Instance-Incremental Learner [41.462673126500974]
インスタンス・インクリメンタル・ラーニング(IIL)は、同じクラスのデータで継続的に学習することに焦点を当てている。
そこで本研究では,教師に知識を集中させ,新たな知識を習得し易くするための新しい意思決定境界対応蒸留法を提案する。
論文 参考訳(メタデータ) (2024-06-05T08:49:51Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。