論文の概要: Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves
- arxiv url: http://arxiv.org/abs/2412.11509v1
- Date: Mon, 16 Dec 2024 07:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:07.691900
- Title: Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves
- Title(参考訳): Skip Tuning: トレーニング済みのビジョンランゲージモデルは効率的で効果的なアダプタテーマ
- Authors: Shihan Wu, Ji Zhang, Pengpeng Zeng, Lianli Gao, Jingkuan Song, Heng Tao Shen,
- Abstract要約: 下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
- 参考スコア(独自算出の注目度): 123.07450481623124
- License:
- Abstract: Prompt tuning (PT) has long been recognized as an effective and efficient paradigm for transferring large pre-trained vision-language models (VLMs) to downstream tasks by learning a tiny set of context vectors. Nevertheless, in this work, we reveal that freezing the parameters of VLMs during learning the context vectors neither facilitates the transferability of pre-trained knowledge nor improves the memory and time efficiency significantly. Upon further investigation, we find that reducing both the length and width of the feature-gradient propagation flows of the full fine-tuning (FT) baseline is key to achieving effective and efficient knowledge transfer. Motivated by this, we propose Skip Tuning, a novel paradigm for adapting VLMs to downstream tasks. Unlike existing PT or adapter-based methods, Skip Tuning applies Layer-wise Skipping (LSkip) and Class-wise Skipping (CSkip) upon the FT baseline without introducing extra context vectors or adapter modules. Extensive experiments across a wide spectrum of benchmarks demonstrate the superior effectiveness and efficiency of our Skip Tuning over both PT and adapter-based methods. Code: https://github.com/Koorye/SkipTuning.
- Abstract(参考訳): プロンプトチューニング(PT)は、少数のコンテキストベクトルを学習することで、大規模な事前学習された視覚言語モデル(VLM)を下流タスクに転送するための効果的かつ効率的なパラダイムとして長年認識されてきた。
しかし,本研究では,文脈ベクトルの学習中にVLMのパラメータを凍結することで,事前学習した知識の伝達が促進されず,記憶と時間効率が大幅に向上することも明らかにした。
さらに検討した結果, フル微調整(FT)ベースラインにおける特徴勾配伝播流の長さと幅の低減が, 効果的かつ効率的な知識伝達を実現するための鍵であることが判明した。
そこで我々は,VLMを下流タスクに適用するための新しいパラダイムであるSkip Tuningを提案する。
既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
幅広いベンチマークの広範な実験は、PTおよびアダプタベースの手法よりも、スキップチューニングの有効性と効率性が優れていることを証明している。
コード:https://github.com/Koorye/SkipTuning.com
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-29T22:52:43Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - On Transferability of Prompt Tuning for Natural Language Understanding [63.29235426932978]
タスクやモデル間でのソフトプロンプトの転送可能性について検討する。
訓練されたソフトプロンプトは、同様のタスクにうまく移行し、PTを初期化してトレーニングを加速し、パフォーマンスを向上させることができる。
以上の結果から,知識伝達によるPTの改善は可能で有望であり,プロンプトのクロスタスク転送性はクロスモデル転送性よりも良好であることが示唆された。
論文 参考訳(メタデータ) (2021-11-12T13:39:28Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。