論文の概要: Quantized Prompt for Efficient Generalization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.10704v1
- Date: Mon, 15 Jul 2024 13:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.917126
- Title: Quantized Prompt for Efficient Generalization of Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルの効率的な一般化のための量子化プロンプト
- Authors: Tianxiang Hao, Xiaohan Ding, Juexiao Feng, Yuhong Yang, Hui Chen, Guiguang Ding,
- Abstract要約: CLIPのような大規模事前学習型視覚言語モデルは、様々な分野で大きな成功を収めている。
下流への適応の間、最も難しい問題は過度に適合し、破滅的な忘れ物である。
本稿では,視覚言語モデルを正規化するための量子化について検討する。
- 参考スコア(独自算出の注目度): 27.98205540768322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, large-scale pre-trained vision-language models like CLIP have achieved tremendous success in various fields. Naturally, how to transfer the rich knowledge in such huge pre-trained models to downstream tasks and datasets becomes a hot topic. During downstream adaptation, the most challenging problems are overfitting and catastrophic forgetting, which can cause the model to overly focus on the current data and lose more crucial domain-general knowledge. Existing works use classic regularization techniques to solve the problems. As solutions become increasingly complex, the ever-growing storage and inference costs are also a significant problem that urgently needs to be addressed. While in this paper, we start from an observation that proper random noise can suppress overfitting and catastrophic forgetting. Then we regard quantization error as a kind of noise, and explore quantization for regularizing vision-language model, which is quite efficiency and effective. Furthermore, to improve the model's generalization capability while maintaining its specialization capacity at minimal cost, we deeply analyze the characteristics of the weight distribution in prompts, conclude several principles for quantization module design and follow such principles to create several competitive baselines. The proposed method is significantly efficient due to its inherent lightweight nature, making it possible to adapt on extremely resource-limited devices. Our method can be fruitfully integrated into many existing approaches like MaPLe, enhancing accuracy while reducing storage overhead, making it more powerful yet versatile. Extensive experiments on 11 datasets shows great superiority of our method sufficiently. Code is available at https://github.com/beyondhtx/QPrompt.
- Abstract(参考訳): 過去数年間、CLIPのような大規模で事前訓練された視覚言語モデルは、様々な分野で大きな成功を収めてきた。
当然、このような巨大なトレーニング済みモデルの豊富な知識を下流のタスクやデータセットに転送する方法は、ホットなトピックになります。
下流への適応において、最も難しい問題は過度な適合と破滅的な忘れ込みであり、それによってモデルが現在のデータに過度に集中し、より重要なドメイン一般知識を失う可能性がある。
既存の作品では、古典的な正規化技術を使って問題を解決している。
ソリューションがますます複雑化するにつれて、ストレージと推論のコストは、緊急に対処する必要がある重要な問題でもある。
本稿では,適切なランダムノイズが過度な適合や破滅的な忘れを抑えるという観察から始める。
次に、量子化誤差をノイズの一種とみなし、非常に効率的かつ効果的である視覚言語モデルを正規化するための量子化を探索する。
さらに, モデルの一般化能力を向上させるために, 最小コストで特殊化能力を維持しながら, プロンプトにおける重量分布の特性を深く分析し, 量子化モジュール設計のいくつかの原理を結論付け, それらの原理に従うことで, 競争力のあるベースラインを創出する。
提案手法は, 軽量な特性のため, 極めて資源に制限のあるデバイスに適応できるため, 極めて効率的である。
提案手法は,MaPLeなどの既存手法と実効的に統合可能であり,ストレージオーバーヘッドを低減しつつ精度を向上し,より強力で汎用性の高い方法である。
11個のデータセットに対する大規模な実験は、我々の手法の優れた優位性を十分に示している。
コードはhttps://github.com/beyondhtx/QPrompt.comで入手できる。
関連論文リスト
- Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。
実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。
様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T16:35:23Z) - Exploring Transferability for Randomized Smoothing [37.60675615521106]
本稿では,頑健なモデルを事前学習する手法を提案する。
クリーンな画像のみを微調整しても、驚くほど強力な認証精度が得られます。
論文 参考訳(メタデータ) (2023-12-14T15:08:27Z) - ImputeFormer: Low Rankness-Induced Transformers for Generalizable Spatiotemporal Imputation [43.684035409535696]
既存の計算ソリューションには、主に低ランクモデルとディープラーニングモデルが含まれる。
強誘導バイアスと高時間モデル表現率の低ランク化によるバイアスバランスを示す。
交通流,太陽エネルギー,スマートメーター,空気品質など,異種データセットの精度,効率,汎用性において,その優位性を示す。
論文 参考訳(メタデータ) (2023-12-04T08:35:31Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model
for Noisy Labels and Long-tailed Learning [9.433150673299163]
実用的な自然言語処理(NLP)タスクは、一般的にノイズの多いラベルで長い尾を持つ。
オーバーサンプリングやアンダーサンプリングなどの一般的な再サンプリング技術は、容易にオーバーフィッティングに繋がる可能性がある。
本稿では,ロングテールラベルとノイズラベルの両方の問題に対処する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:40:04Z) - KL Regularized Normalization Framework for Low Resource Tasks [18.88247001843119]
資源や時間が限られているため、大量の教師付きデータを得ることは困難である。
正規化データを適切に振舞い、より一般化するのに役立つKullbackLeibler(KL)正規化正規化(KL-Norm)を提案する。
論文 参考訳(メタデータ) (2022-12-21T05:59:25Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。