論文の概要: Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2307.15049v2
- Date: Sun, 6 Aug 2023 14:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:15:40.172378
- Title: Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models
- Title(参考訳): 正規化マスクチューニング:事前学習型視覚言語モデルにおける隠れた知識の発見
- Authors: Kecheng Zheng, Wei Wu, Ruili Feng, Kai Zhu, Jiawei Liu, Deli Zhao,
Zheng-Jun Zha, Wei Chen, Yujun Shen
- Abstract要約: 我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
- 参考スコア(独自算出の注目度): 89.07925369856139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning and adapter tuning have shown great potential in transferring
pre-trained vision-language models (VLMs) to various downstream tasks. In this
work, we design a new type of tuning method, termed as regularized mask tuning,
which masks the network parameters through a learnable selection. Inspired by
neural pathways, we argue that the knowledge required by a downstream task
already exists in the pre-trained weights but just gets concealed in the
upstream pre-training stage. To bring the useful knowledge back into light, we
first identify a set of parameters that are important to a given downstream
task, then attach a binary mask to each parameter, and finally optimize these
masks on the downstream data with the parameters frozen. When updating the
mask, we introduce a novel gradient dropout strategy to regularize the
parameter selection, in order to prevent the model from forgetting old
knowledge and overfitting the downstream data. Experimental results on 11
datasets demonstrate the consistent superiority of our method over previous
alternatives. It is noteworthy that we manage to deliver 18.73% performance
improvement compared to the zero-shot CLIP via masking an average of only 2.56%
parameters. Furthermore, our method is synergistic with most existing
parameter-efficient tuning methods and can boost the performance on top of
them. Project page can be found here (https://wuw2019.github.io/R-AMT/).
- Abstract(参考訳): プロンプトチューニングとアダプタチューニングは、事前学習された視覚言語モデル(VLM)を様々な下流タスクに転送する大きな可能性を示している。
本研究では,学習可能な選択によってネットワークパラメータをマスキングする,正則化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング前の段階では隠されていると論じる。
有用な知識を光に戻すために、まず、与えられた下流タスクに重要なパラメータのセットを特定し、次に各パラメータにバイナリマスクをアタッチし、最後にパラメータを凍結して下流データ上のマスクを最適化する。
マスク更新時に,パラメータ選択を正則化する新しい勾配ドロップアウト戦略を導入し,モデルが古い知識を忘れ,下流データにオーバーフィットすることを防止する。
11のデータセットにおける実験結果から,従来の方法よりも一貫性のある優越性が示された。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
さらに,提案手法は既存のパラメータ効率の高いチューニング手法と相乗的であり,それらの性能を向上させることができる。
プロジェクトページはここにある(https://wuw2019.github.io/R-AMT/)。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained
Language Models For Classification Tasks [49.807185872741066]
トレーニング可能なベクトルを3つだけ導入する簡単なチューニング手法を提案する。
統合された隠れ状態(s)をタスク固有の線形分類器に入力し、カテゴリを予測する。
このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。
論文 参考訳(メタデータ) (2022-04-10T04:14:02Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。