論文の概要: BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning
- arxiv url: http://arxiv.org/abs/2511.11421v1
- Date: Fri, 14 Nov 2025 15:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.693838
- Title: BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning
- Title(参考訳): BOFA:CLIPに基づくクラスインクリメンタルラーニングのためのブリッジ層直交低ランク核融合
- Authors: Lan Li, Tao Hu, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan,
- Abstract要約: CIL(Class-Incremental Learning)は,従来の知識を忘れずに,新たなカテゴリを継続的に学習することを目的としている。
CLIP から CIL への視覚言語モデルの適用には,次の2つの大きな課題がある。(1) 下流タスクへの適応には,新たな学習可能なモジュールを必要とする場合が多いこと,2) モデル複雑性の増大と忘れやすいこと,2) マルチモーダル表現は相補的な長所を提供する一方で,既存の手法では,視覚的およびテキスト的モダリティを効果的に統合する可能性を完全には実現できていない。
- 参考スコア(独自算出の注目度): 84.56022893225422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-Incremental Learning (CIL) aims to continually learn new categories without forgetting previously acquired knowledge. Vision-language models such as CLIP offer strong transferable representations via multi-modal supervision, making them promising for CIL. However, applying CLIP to CIL poses two major challenges: (1) adapting to downstream tasks often requires additional learnable modules, increasing model complexity and susceptibility to forgetting; and (2) while multi-modal representations offer complementary strengths, existing methods have yet to fully realize their potential in effectively integrating visual and textual modalities. To address these issues, we propose BOFA (Bridge-layer Orthogonal Fusion for Adaptation), a novel framework for CIL. BOFA confines all model adaptation exclusively to CLIP's existing cross-modal bridge-layer, thereby adding no extra parameters or inference cost. To prevent forgetting within this layer, it leverages Orthogonal Low-Rank Fusion, a mechanism that constrains parameter updates to a low-rank ``safe subspace" mathematically constructed to be orthogonal to past task features. This ensures stable knowledge accumulation without data replay. Furthermore, BOFA employs a cross-modal hybrid prototype that synergizes stable textual prototypes with visual counterparts derived from our stably adapted bridge-layer, enhancing classification performance. Extensive experiments on standard benchmarks show that BOFA achieves superior accuracy and efficiency compared to existing methods.
- Abstract(参考訳): CIL(Class-Incremental Learning)は,従来の知識を忘れずに,新たなカテゴリを継続的に学習することを目的としている。
CLIPのようなビジョン言語モデルは、マルチモーダル監視を通じて強力な転送可能な表現を提供し、CILに期待できる。
しかし、CLIにCLIPを適用することは、(1)下流タスクに適応するためには、しばしば追加の学習可能なモジュールが必要であり、(2)モデル複雑性と忘れやすいこと、2)マルチモーダル表現は相補的な強みを提供するが、既存の手法は、視覚的およびテキスト的モダリティを効果的に統合する可能性を完全には実現していない。
これらの課題に対処するため,CILの新しいフレームワークであるBOFA(Bridge-layer Orthogonal Fusion for Adaptation)を提案する。
BOFAは、CLIPの既存のクロスモーダルブリッジ層にのみ、すべてのモデル適応を制限し、追加のパラメータや推論コストを追加しない。
この層内での忘れを防止するために、Orthogonal Low-Rank Fusion(英語版)を利用する。これは、過去のタスク特徴に直交するように数学的に構築された低ランクの ``safe subspace' へのパラメータ更新を制約するメカニズムである。
これにより、データの再生なしに安定した知識の蓄積が保証される。
さらに、BOFAは、安定なテキストプロトタイプと、安定に適応したブリッジ層から派生した視覚的プロトタイプを相乗化するクロスモーダルハイブリッドプロトタイプを採用し、分類性能を向上させる。
ベンチマーク実験の結果,BOFAは既存の手法に比べて精度と効率が優れていることがわかった。
関連論文リスト
- CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning [8.81873424028249]
CIL (Class-Incremental Learning) は、学習した授業の知識を維持しつつ、新しいクラスを逐次学習することを目的としている。
我々は,textbftask-sharedアダプタを併用して,クロスタスク知識とtextbftask-specific Adapter を学習し,各タスクのユニークな特徴を捉えた新しいデュアルアダプタアーキテクチャを提案する。
CL-LoRAは、トレーニングと推論の計算を減らし、複数のベンチマークで常に有望な性能を達成することを実証する。
論文 参考訳(メタデータ) (2025-05-30T17:19:52Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。