Fugu-MT 論文翻訳(概要): Quantized Prompt for Efficient Generalization of Vision-Language Models

論文の概要: Quantized Prompt for Efficient Generalization of Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.10704v1
Date: Mon, 15 Jul 2024 13:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:11:40.917126
Title: Quantized Prompt for Efficient Generalization of Vision-Language Models
Title（参考訳）: ビジョンランゲージモデルの効率的な一般化のための量子化プロンプト
Authors: Tianxiang Hao, Xiaohan Ding, Juexiao Feng, Yuhong Yang, Hui Chen, Guiguang Ding,
Abstract要約: CLIPのような大規模事前学習型視覚言語モデルは、様々な分野で大きな成功を収めている。下流への適応の間、最も難しい問題は過度に適合し、破滅的な忘れ物である。本稿では,視覚言語モデルを正規化するための量子化について検討する。
参考スコア（独自算出の注目度）: 27.98205540768322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past few years, large-scale pre-trained vision-language models like CLIP have achieved tremendous success in various fields. Naturally, how to transfer the rich knowledge in such huge pre-trained models to downstream tasks and datasets becomes a hot topic. During downstream adaptation, the most challenging problems are overfitting and catastrophic forgetting, which can cause the model to overly focus on the current data and lose more crucial domain-general knowledge. Existing works use classic regularization techniques to solve the problems. As solutions become increasingly complex, the ever-growing storage and inference costs are also a significant problem that urgently needs to be addressed. While in this paper, we start from an observation that proper random noise can suppress overfitting and catastrophic forgetting. Then we regard quantization error as a kind of noise, and explore quantization for regularizing vision-language model, which is quite efficiency and effective. Furthermore, to improve the model's generalization capability while maintaining its specialization capacity at minimal cost, we deeply analyze the characteristics of the weight distribution in prompts, conclude several principles for quantization module design and follow such principles to create several competitive baselines. The proposed method is significantly efficient due to its inherent lightweight nature, making it possible to adapt on extremely resource-limited devices. Our method can be fruitfully integrated into many existing approaches like MaPLe, enhancing accuracy while reducing storage overhead, making it more powerful yet versatile. Extensive experiments on 11 datasets shows great superiority of our method sufficiently. Code is available at https://github.com/beyondhtx/QPrompt.
Abstract（参考訳）: 過去数年間、CLIPのような大規模で事前訓練された視覚言語モデルは、様々な分野で大きな成功を収めてきた。当然、このような巨大なトレーニング済みモデルの豊富な知識を下流のタスクやデータセットに転送する方法は、ホットなトピックになります。下流への適応において、最も難しい問題は過度な適合と破滅的な忘れ込みであり、それによってモデルが現在のデータに過度に集中し、より重要なドメイン一般知識を失う可能性がある。既存の作品では、古典的な正規化技術を使って問題を解決している。ソリューションがますます複雑化するにつれて、ストレージと推論のコストは、緊急に対処する必要がある重要な問題でもある。本稿では,適切なランダムノイズが過度な適合や破滅的な忘れを抑えるという観察から始める。次に、量子化誤差をノイズの一種とみなし、非常に効率的かつ効果的である視覚言語モデルを正規化するための量子化を探索する。さらに, モデルの一般化能力を向上させるために, 最小コストで特殊化能力を維持しながら, プロンプトにおける重量分布の特性を深く分析し, 量子化モジュール設計のいくつかの原理を結論付け, それらの原理に従うことで, 競争力のあるベースラインを創出する。提案手法は, 軽量な特性のため, 極めて資源に制限のあるデバイスに適応できるため, 極めて効率的である。提案手法は,MaPLeなどの既存手法と実効的に統合可能であり,ストレージオーバーヘッドを低減しつつ精度を向上し,より強力で汎用性の高い方法である。 11個のデータセットに対する大規模な実験は、我々の手法の優れた優位性を十分に示している。コードはhttps://github.com/beyondhtx/QPrompt.comで入手できる。

関連論文リスト

Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Forgetting, Ignorance or Myopia: Revisiting Key Challenges in Online Continual Learning [29.65600202138321]
高速なデータストリーム環境では、遅いモデルに対応するためにデータが停止しない。モデルの無知: OCLのシングルパスの性質は、制約付きトレーニング時間内で効果的な機能を学ぶためにモデルに挑戦する。モデルのミオピア:OCLの局所的な学習特性は、過度に単純化されたタスク固有の機能を採用するモデルに導かれる。
論文参考訳（メタデータ） (2024-09-28T05:24:56Z)
Encapsulating Knowledge in One Prompt [56.31088116526825]
KiOPは、元のモデルを変更したり、トレーニングデータにアクセスする必要なしに、さまざまなモデルからの知識を単独のプロンプトにカプセル化する。実用性の観点から、このパラダイムは、データアクセス不能なコンテキストにおけるVisual Promptの有効性を証明している。様々なデータセットとモデルを用いた実験は、提案したKiOP知識伝達パラダイムの有効性を示す。
論文参考訳（メタデータ） (2024-07-16T16:35:23Z)
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文参考訳（メタデータ） (2024-07-14T00:23:51Z)
Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文参考訳（メタデータ） (2024-06-24T08:18:19Z)
ImputeFormer: Low Rankness-Induced Transformers for Generalizable Spatiotemporal Imputation [43.684035409535696]
既存の計算ソリューションには、主に低ランクモデルとディープラーニングモデルが含まれる。強誘導バイアスと高時間モデル表現率の低ランク化によるバイアスバランスを示す。交通流,太陽エネルギー,スマートメーター,空気品質など,異種データセットの精度,効率,汎用性において,その優位性を示す。
論文参考訳（メタデータ） (2023-12-04T08:35:31Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
KL Regularized Normalization Framework for Low Resource Tasks [18.88247001843119]
資源や時間が限られているため、大量の教師付きデータを得ることは困難である。正規化データを適切に振舞い、より一般化するのに役立つKullbackLeibler(KL)正規化正規化(KL-Norm)を提案する。
論文参考訳（メタデータ） (2022-12-21T05:59:25Z)
Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文参考訳（メタデータ） (2021-02-16T06:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。