論文の概要: Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters
- arxiv url: http://arxiv.org/abs/2312.10813v2
- Date: Thu, 11 Jan 2024 12:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:57:16.861636
- Title: Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters
- Title(参考訳): re-parameterized low-rank prompt: 0.5kパラメータによる視覚言語モデルの一般化
- Authors: Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Jungong Han,
Guiguang Ding
- Abstract要約: そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
- 参考スコア(独自算出の注目度): 75.28536311904489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of large pre-trained vision-language models, how to
effectively transfer the knowledge of such foundational models to downstream
tasks becomes a hot topic, especially in a data-deficient scenario. Recently,
prompt tuning has become a popular solution. When adapting the vision-language
models, researchers freeze the parameters in the backbone and only design and
tune the prompts. On the one hand, the delicate design of prompt tuning
exhibits strong performance. On the other hand, complicated structures and
update rules largely increase the computation and storage cost. Motivated by
the observation that the evolution pattern of the generalization capability in
visual-language models aligns harmoniously with the trend of rank variations in
the prompt matrix during adaptation, we design a new type of prompt,
Re-parameterized Low-rank Prompt (RLP), for both efficient and effective
adaptation. Our method could largely reduce the number of tunable parameters
and storage space, which is quite beneficial in resource-limited scenarios.
Extensive experiments further demonstrate the superiority of RLP. In
particular, RLP shows comparable or even stronger performance than the latest
state-of-the-art methods with an extremely small number of parameters. On a
series of tasks over 11 datasets, RLP significantly increases the average
downstream accuracy of classic prompt tuning by up to 5.25% using merely 0.5K
parameters.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデルの開発により、特にデータ不足のシナリオにおいて、そのような基礎モデルの知識を下流タスクに効果的に伝達する方法がホットトピックとなる。
近年,プロンプトチューニングが一般的なソリューションとなっている。
視覚言語モデルを適用する場合、研究者たちはバックボーンのパラメータを凍結し、プロンプトの設計とチューニングのみを行う。
一方、プロンプトチューニングの繊細な設計は強い性能を示す。
一方、複雑な構造や更新ルールは、計算とストレージコストを大幅に高めている。
視覚言語モデルにおける一般化能力の進化パターンが適応中のプロンプト行列のランク変化の傾向と調和しているという観察に動機づけられ,効率的かつ効果的な適応のために,新しいタイプのプロンプト,再パラメータ化低ランクプロンプト(rlp)を設計した。
提案手法は,資源限定のシナリオにおいて非常に有益であるチューナブルパラメータやストレージスペースの削減に大きく貢献する。
大規模な実験により、RLPの優位性がさらに証明された。
特に、RLPは、非常に少数のパラメータを持つ最新の最先端メソッドと同等またはそれ以上の性能を示している。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
関連論文リスト
- Enhancing Transformer RNNs with Multiple Temporal Perspectives [21.223863644467777]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unified Low-Resource Sequence Labeling by Sample-Aware Dynamic Sparse
Finetuning [24.765911297156855]
FISH-DIPは、少数のパラメータに選択的にフォーカスする、サンプル対応のダイナミックスパース微調整戦略である。
FISH-DIPは、最大40%の性能改善を提供する低リソース設定でモデルをスムーズに最適化できることを実証した。
論文 参考訳(メタデータ) (2023-11-07T06:19:37Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers [9.080472817672264]
Prompt Generation Network (PGN)は、トークンのエンドツーエンドの学習ライブラリからサンプリングすることで、高性能で入力に依存したプロンプトを生成する。
PGNを遅延空間で効率的に訓練できる"prompt inversion"トリックは、推論のための厳密な入力専用プロンプトとしてデプロイされる。
12/12データセットでは従来よりも大きなマージンで,さらに5/12ではフルファインタニングでもパフォーマンスが向上し,パラメータの100倍も削減されている。
論文 参考訳(メタデータ) (2022-10-12T17:59:58Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。