論文の概要: Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability
- arxiv url: http://arxiv.org/abs/2312.10813v3
- Date: Tue, 10 Sep 2024 20:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 22:03:32.434209
- Title: Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability
- Title(参考訳): ビジョン・ランゲージ・チューニングの効率化に向けて - 情報密度の向上, 一般化可能性向上に向けて-
- Authors: Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Xiaohan Ding, Jungong Han, Guiguang Ding,
- Abstract要約: 本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
- 参考スコア(独自算出の注目度): 73.34532767873785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of large pre-trained vision-language models, effectively transferring the knowledge embedded within these foundational models to downstream tasks has become a pivotal topic, particularly in data-scarce environments. Recently, parameter-efficient fine-tuning approaches, especially prompt tuning, have garnered considerable attention. To better understand the nature of prompt tuning, we propose the concept of ``Information Density'' (ID) to indicate whether a matrix strongly belongs to certain feature spaces rather than being evenly distributed across various feature spaces. We suppose a higher ID with strong bias across some feature spaces naturally leads to excellent robustness and stability. Our research, inspired by the observation that generalizability is closely linked to the information density of the prompt matrix, introduces the Dense Information Prompt (DIP). DIP aims to enhance information density to improve generalization. Furthermore, DIP significantly reduces the number of tunable parameters and the requisite storage space, making it particularly advantageous in resource-constrained settings. Comprehensive experiments substantiate the superiority of DIP. Notably, DIP surpasses the latest state-of-the-art methods by a substantial margin with an exceptionally small parameter count. Across a range of tasks spanning 11 datasets, DIP improves the average downstream accuracy of classic prompt tuning by up to 5.76% using merely 0.5K parameters.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデルの進歩により、基礎モデルに埋め込まれた知識を下流タスクに効果的に移行することが、特にデータ共有環境において重要なトピックとなっている。
近年,パラメータ効率のよい微調整手法,特にプロンプトチューニングが注目されている。
そこで我々は,プロンプトチューニングの性質をよりよく理解するために,行列が様々な特徴空間に均等に分散されるのではなく,特定の特徴空間に強く属するかどうかを示すために,'情報密度' (ID) の概念を提案する。
いくつかの特徴空間に強いバイアスを持つ高いIDは、自然に優れた堅牢性と安定性をもたらすと仮定する。
我々の研究は、一般化可能性がプロンプト行列の情報密度と密接に関連しているという観察から着想を得て、Dense Information Prompt (DIP)を導入している。
DIPは、情報密度を高め、一般化を改善することを目的としている。
さらに、DIPは調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
総合的な実験は、DIPの優越性を裏付けるものである。
特に、DIPは最新の最先端の手法を、例外的に小さなパラメータ数でかなりのマージンで上回っている。
11のデータセットにまたがるタスクの範囲で、DIPは0.5Kパラメータを使用して古典的なプロンプトチューニングの平均下流精度を最大5.76%改善する。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - Enhancing Transformer RNNs with Multiple Temporal Perspectives [18.884124657093405]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers [9.080472817672264]
Prompt Generation Network (PGN)は、トークンのエンドツーエンドの学習ライブラリからサンプリングすることで、高性能で入力に依存したプロンプトを生成する。
PGNを遅延空間で効率的に訓練できる"prompt inversion"トリックは、推論のための厳密な入力専用プロンプトとしてデプロイされる。
12/12データセットでは従来よりも大きなマージンで,さらに5/12ではフルファインタニングでもパフォーマンスが向上し,パラメータの100倍も削減されている。
論文 参考訳(メタデータ) (2022-10-12T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。