論文の概要: A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters
- arxiv url: http://arxiv.org/abs/2603.11211v1
- Date: Wed, 11 Mar 2026 18:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.579788
- Title: A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters
- Title(参考訳): 非線形マルチアダプタを用いた視覚言語モデルによる簡易能率インクリメンタル学習フレームワーク
- Authors: Haihua Luo, Xuming Ran, Jiangrong Shen, Timo Hämäläinen, Zhonghua Chen, Qi Xu, Fengyu Cong,
- Abstract要約: SimEは、ILタスク用に特別に設計されたアダプタを備えた視覚言語モデルを使用するフレームワークである。
我々は、TinyImageNetでは従来のメソッドを9.6%上回り、CLIPベースのメソッドではCIFAR-100では5.3%上回っていることを示す。
我々は、SimEのエンコーダをより大きなデータセットでトレーニングされたCLIPモデルに置き換えることを提案する。
- 参考スコア(独自算出の注目度): 33.89539378162866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incremental Learning (IL) aims to learn new tasks while preserving previously acquired knowledge. Integrating the zero-shot learning capabilities of pre-trained vision-language models into IL methods has marked a significant advancement. However, these methods face three primary challenges: (1) the need for improved training efficiency; (2) reliance on a memory bank to store previous data; and (3) the necessity of a strong backbone to augment the model's capabilities. In this paper, we propose SimE, a Simple and Efficient framework that employs a vision-language model with adapters designed specifically for the IL task. We report a remarkable phenomenon: there is a nonlinear correlation between the number of adaptive adapter connections and the model's IL capabilities. While increasing adapter connections between transformer blocks improves model performance, adding more adaptive connections within transformer blocks during smaller incremental steps does not enhance, and may even degrade the model's IL ability. Extensive experimental results show that SimE surpasses traditional methods by 9.6% on TinyImageNet and outperforms other CLIP-based methods by 5.3% on CIFAR-100. Furthermore, we conduct a systematic study to enhance the utilization of the zero-shot capabilities of CLIP. We suggest replacing SimE's encoder with a CLIP model trained on larger datasets (e.g., LAION2B) and stronger architectures (e.g., ViT-L/14).
- Abstract(参考訳): インクリメンタルラーニング(IL)は、以前獲得した知識を維持しながら、新しいタスクを学習することを目的としている。
事前訓練された視覚言語モデルのゼロショット学習能力をIL手法に統合することは、大きな進歩を遂げた。
しかし,これらの手法は,(1)トレーニング効率の向上の必要性,(2)以前のデータを保存するためのメモリバンクへの依存,(3)モデルの能力を高めるための強力なバックボーンの必要性,の3つの課題に直面している。
本稿では,ILタスクに特化して設計されたアダプタを用いた視覚言語モデルを用いた,シンプルで効率的なフレームワークであるSimEを提案する。
本稿では,適応型アダプタ接続数とモデルのIL機能との間に非線形な相関関係があることを報告する。
トランスバータブロック間のアダプタ接続の増加はモデル性能を向上させるが、小さなインクリメンタルステップでトランスバータブロック内でより適応的な接続を追加することは、改善せず、モデルのIL能力を低下させる可能性もある。
大規模な実験の結果、SimEはTinyImageNetで従来の手法を9.6%上回り、CLIPベースの手法ではCIFAR-100で5.3%上回った。
さらに,CLIPのゼロショット機能の利用性を高めるための系統的研究を行った。
我々は、SimEのエンコーダを、より大きなデータセット(例:LAION2B)とより強力なアーキテクチャ(例:ViT-L/14)でトレーニングされたCLIPモデルに置き換えることを提案する。
関連論文リスト
- CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets [0.9642500063568188]
本稿では,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
ビデオ入力を処理するバックボーンと比較してトレーニング可能なパラメータは12.8%に過ぎず、最先端よりも同等で、さらに優れた結果が得られる。
論文 参考訳(メタデータ) (2025-01-06T19:01:10Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。