論文の概要: Enhancing Continual Learning of Vision-Language Models via Dynamic Prefix Weighting
- arxiv url: http://arxiv.org/abs/2604.18075v1
- Date: Mon, 20 Apr 2026 10:46:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.815549
- Title: Enhancing Continual Learning of Vision-Language Models via Dynamic Prefix Weighting
- Title(参考訳): 動的固定重み付けによる視覚言語モデルの連続学習の促進
- Authors: Hyeonseo Jang, Hyuk Kwon, Kibok Lee,
- Abstract要約: 視覚言語モデル(VLM)におけるドメインクラスの漸進学習シナリオについて検討する。
本稿では,動的に重みをプレフィックスに割り当てるフレームワークである動的修正重み付け(DPW)を提案する。
実験により,本手法は,VLMのドメインクラスインクリメンタル学習シナリオにおいて,最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 3.9858496473361402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate recently introduced domain-class incremental learning scenarios for vision-language models (VLMs). Recent works address this challenge using parameter-efficient methods, such as prefix-tuning or adapters, which facilitate model adaptation to downstream tasks by incorporating task-specific information into input tokens through additive vectors. However, previous approaches often normalize the weights of these vectors, disregarding the fact that different input tokens require different degrees of adjustment. To overcome this issue, we propose Dynamic Prefix Weighting (DPW), a framework that dynamically assigns weights to prefixes, complemented by adapters. DPW consists of 1) a gating module that adjusts the weights of each prefix based on the importance of the corresponding input token, and 2) a weighting mechanism that derives adapter output weights as a residual of prefix-tuning weights, ensuring that adapters are utilized only when necessary. Experimental results demonstrate that our method achieves state-of-the-art performance in domain-class incremental learning scenarios for VLMs. The code is available at: https://github.com/YonseiML/dpw.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)のためのドメインクラスの漸進学習シナリオについて検討している。
最近の研究はプレフィックスチューニングやアダプタのようなパラメータ効率のよい手法を用いてこの問題に対処している。これは、付加ベクトルを介して入力トークンにタスク固有の情報を組み込むことで、下流タスクへのモデル適応を容易にする。
しかし、以前のアプローチはしばしばこれらのベクトルの重み付けを正規化しており、異なる入力トークンが異なる調整度を必要とするという事実を無視している。
この問題を克服するために,動的修正重み付け(DPW)を提案する。
DPWは
1) 対応する入力トークンの重要性に基づいて各プレフィックスの重みを調整するゲーティングモジュール及び
2 アダプタ出力重量をプレフィックス調整重量の残量として導出する重み付け機構により、アダプタを必要時にのみ使用することを保証する。
実験により,本手法は,VLMのドメインクラスインクリメンタル学習シナリオにおいて,最先端の性能を実現することを示す。
コードは、https://github.com/YonseiML/dpw.comで入手できる。
関連論文リスト
- Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z) - On-the-Fly Adaptation of Source Code Models using Meta-Learning [28.98699307030983]
文脈適応の問題はメタラーニングの問題である。
我々は、欠落したトークンの予測を改善するために、ファイル内の情報から最もよく学習できるベースソースコードモデルを訓練する。
大規模なJava GitHubコーパスの実験において、パフォーマンスの改善を実証した。
論文 参考訳(メタデータ) (2020-03-26T07:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。