論文の概要: Learning without Forgetting for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.19270v1
- Date: Tue, 30 May 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:28:03.190873
- Title: Learning without Forgetting for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための学習
- Authors: Da-Wei Zhou, Yuanhan Zhang, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan,
Ziwei Liu
- Abstract要約: CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
- 参考スコア(独自算出の注目度): 65.49600786387106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-Incremental Learning (CIL) or continual learning is a desired
capability in the real world, which requires a learning system to adapt to new
tasks without forgetting former ones. While traditional CIL methods focus on
visual information to grasp core features, recent advances in Vision-Language
Models (VLM) have shown promising capabilities in learning generalizable
representations with the aid of textual information. However, when continually
trained with new classes, VLMs often suffer from catastrophic forgetting of
former knowledge. Applying VLMs to CIL poses two major challenges: 1) how to
adapt the model without forgetting; and 2) how to make full use of the
multi-modal information. To this end, we propose PROjectiOn Fusion (PROOF) that
enables VLMs to learn without forgetting. To handle the first challenge, we
propose training task-specific projections based on the frozen image/text
encoders. When facing new tasks, new projections are expanded and former
projections are fixed, alleviating the forgetting of old concepts. For the
second challenge, we propose the fusion module to better utilize the
cross-modality information. By jointly adjusting visual and textual features,
the model can capture semantic information with stronger representation
ability. Extensive experiments on nine benchmark datasets validate PROOF
achieves state-of-the-art performance.
- Abstract(参考訳): クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class-Incremental Learning、CIL)は、学習システムが新しいタスクに適応するために必要な、現実の世界で望まれる能力である。
従来のcil手法では視覚情報に着目し,視覚言語モデル (vlm) の最近の進歩は,テキスト情報を用いた一般化表現の学習に有望な能力を示している。
しかし、新しいクラスで継続的に訓練すると、VLMはかつての知識を破滅的に忘れてしまう。
VLMをCILに適用することは2つの大きな課題をもたらす。
1)モデルを忘れることなく適応させる方法、及び
2)マルチモーダル情報をフル活用する方法。
この目的のために,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
第1の課題に対処するために,凍結画像/テキストエンコーダに基づくタスク固有プロジェクションのトレーニングを提案する。
新しいタスクに直面すると、新しいプロジェクションが拡張され、以前のプロジェクションが修正され、古い概念の忘れが緩和される。
第2の課題として,クロスモダリティ情報を活用するための融合モジュールを提案する。
視覚的特徴とテキスト的特徴を協調的に調整することにより、モデルはより強力な表現能力で意味情報をキャプチャすることができる。
PROOFを検証する9つのベンチマークデータセットの大規模な実験は、最先端のパフォーマンスを達成する。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning
for Multimodal Video Captioning [10.95493493610559]
マルチモーダルビデオキャプション(MCF-VC)のためのクラス増分学習におけるカタストロフィックフォーミングの軽減手法を提案する。
特徴レベルでの旧タスクと新タスクの知識特性をよりよく制約するために,2段階知識蒸留(TsKD)を作成した。
公開データセットMSR-VTTを用いた実験により,提案手法は古いサンプルを再生することなく過去のタスクを忘れることに対して著しく抵抗し,新しいタスクでうまく機能することを示した。
論文 参考訳(メタデータ) (2024-02-27T16:54:08Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。