論文の概要: Learning without Forgetting for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.19270v2
- Date: Wed, 12 Feb 2025 10:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:44.501350
- Title: Learning without Forgetting for Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルのための忘れない学習
- Authors: Da-Wei Zhou, Yuanhan Zhang, Yan Wang, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu,
- Abstract要約: CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
- 参考スコア(独自算出の注目度): 86.53237963364754
- License:
- Abstract: Class-Incremental Learning (CIL) or continual learning is a desired capability in the real world, which requires a learning system to adapt to new tasks without forgetting former ones. While traditional CIL methods focus on visual information to grasp core features, recent advances in Vision-Language Models (VLM) have shown promising capabilities in learning generalizable representations with the aid of textual information. However, when continually trained with new classes, VLMs often suffer from catastrophic forgetting of former knowledge. Applying VLMs to CIL poses two major challenges: 1) how to adapt the model without forgetting; and 2) how to make full use of the multi-modal information. To this end, we propose PROjectiOn Fusion (PROOF) that enables VLMs to learn without forgetting. To handle the first challenge, we propose training task-specific projections based on the frozen image/text encoders. When facing new tasks, new projections are expanded and former projections are fixed, alleviating the forgetting of old concepts. For the second challenge, we propose the fusion module to better utilize the cross-modality information. By jointly adjusting visual and textual features, the model can capture semantic information with stronger representation ability. Extensive experiments on nine benchmark datasets validate PROOF achieves state-of-the-art performance. Code is available at https://github.com/zhoudw-zdw/PROOF
- Abstract(参考訳): クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class-Incremental Learning、CIL)は、学習システムが新しいタスクに適応するために必要な、現実の世界で望まれる能力である。
近年の視覚言語モデル(VLM)の進歩は,テキスト情報を用いて一般化可能な表現を学習する上で有望な能力を示している。
しかしながら、新しいクラスで継続的に訓練すると、VLMはかつての知識を破滅的に忘れてしまうことがしばしばある。
VLMをCILに適用することは2つの大きな課題をもたらす。
1) モデルを忘れずに適応する方法,及び
2)マルチモーダル情報をフル活用する方法。
この目的のために,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
最初の課題に対処するために、凍結画像/テキストエンコーダに基づくタスク固有のプロジェクションのトレーニングを提案する。
新しいタスクに直面すると、新しいプロジェクションが拡張され、以前のプロジェクションが固定され、古い概念の忘れが軽減される。
第2の課題として,モーダリティ情報をよりよく活用するための融合モジュールを提案する。
視覚的特徴とテキスト的特徴を協調的に調整することにより、モデルはより強力な表現能力で意味情報をキャプチャすることができる。
PROOFを検証する9つのベンチマークデータセットの大規模な実験は、最先端のパフォーマンスを達成する。
コードはhttps://github.com/zhoudw-zdw/PROOFで入手できる。
関連論文リスト
- FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。