論文の概要: Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability
- arxiv url: http://arxiv.org/abs/2312.10813v3
- Date: Tue, 10 Sep 2024 20:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 22:03:32.434209
- Title: Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability
- Title(参考訳): ビジョン・ランゲージ・チューニングの効率化に向けて - 情報密度の向上, 一般化可能性向上に向けて-
- Authors: Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Xiaohan Ding, Jungong Han, Guiguang Ding,
- Abstract要約: 本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
- 参考スコア(独自算出の注目度): 73.34532767873785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of large pre-trained vision-language models, effectively transferring the knowledge embedded within these foundational models to downstream tasks has become a pivotal topic, particularly in data-scarce environments. Recently, parameter-efficient fine-tuning approaches, especially prompt tuning, have garnered considerable attention. To better understand the nature of prompt tuning, we propose the concept of ``Information Density'' (ID) to indicate whether a matrix strongly belongs to certain feature spaces rather than being evenly distributed across various feature spaces. We suppose a higher ID with strong bias across some feature spaces naturally leads to excellent robustness and stability. Our research, inspired by the observation that generalizability is closely linked to the information density of the prompt matrix, introduces the Dense Information Prompt (DIP). DIP aims to enhance information density to improve generalization. Furthermore, DIP significantly reduces the number of tunable parameters and the requisite storage space, making it particularly advantageous in resource-constrained settings. Comprehensive experiments substantiate the superiority of DIP. Notably, DIP surpasses the latest state-of-the-art methods by a substantial margin with an exceptionally small parameter count. Across a range of tasks spanning 11 datasets, DIP improves the average downstream accuracy of classic prompt tuning by up to 5.76% using merely 0.5K parameters.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデルの進歩により、基礎モデルに埋め込まれた知識を下流タスクに効果的に移行することが、特にデータ共有環境において重要なトピックとなっている。
近年,パラメータ効率のよい微調整手法,特にプロンプトチューニングが注目されている。
そこで我々は,プロンプトチューニングの性質をよりよく理解するために,行列が様々な特徴空間に均等に分散されるのではなく,特定の特徴空間に強く属するかどうかを示すために,'情報密度' (ID) の概念を提案する。
いくつかの特徴空間に強いバイアスを持つ高いIDは、自然に優れた堅牢性と安定性をもたらすと仮定する。
我々の研究は、一般化可能性がプロンプト行列の情報密度と密接に関連しているという観察から着想を得て、Dense Information Prompt (DIP)を導入している。
DIPは、情報密度を高め、一般化を改善することを目的としている。
さらに、DIPは調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
総合的な実験は、DIPの優越性を裏付けるものである。
特に、DIPは最新の最先端の手法を、例外的に小さなパラメータ数でかなりのマージンで上回っている。
11のデータセットにまたがるタスクの範囲で、DIPは0.5Kパラメータを使用して古典的なプロンプトチューニングの平均下流精度を最大5.76%改善する。
関連論文リスト
- Position-Aware Parameter Efficient Fine-Tuning Approach for Reducing Positional Bias in LLMs [18.832135309689736]
大規模言語モデル(LLM)の最近の進歩は、長い入力コンテキストを処理する能力を高めている。
近年の研究では、LCMの位置バイアスが示されており、有用な情報の位置に応じて様々な性能を示す。
本研究では,データ拡張手法と効率的なパラメータアダプタを組み合わせた位置認識型PAPEFTアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-01T19:04:17Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文 参考訳(メタデータ) (2023-10-24T15:27:15Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - HiFi: High-Information Attention Heads Hold for Parameter-Efficient
Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。
まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。
GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-08T09:31:13Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Information-theoretic Inducing Point Placement for High-throughput
Bayesian Optimisation [9.732863739456036]
本稿では,情報理論の原理を応用した新しい点設計法を提案する。
目的関数の最大値における大域的不確実性と不確実性の両方を最大化するための誘導点を選択することにより、高精度な高スループットBOをサポートするサロゲートモデルを構築する。
論文 参考訳(メタデータ) (2022-06-06T08:56:56Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。