Fugu-MT 論文翻訳(概要): Approximated Prompt Tuning for Vision-Language Pre-trained Models

論文の概要: Approximated Prompt Tuning for Vision-Language Pre-trained Models

arxiv url: http://arxiv.org/abs/2306.15706v1
Date: Tue, 27 Jun 2023 05:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 17:13:50.288365
Title: Approximated Prompt Tuning for Vision-Language Pre-trained Models
Title（参考訳）: 視覚言語事前学習モデルに対する近似的プロンプトチューニング
Authors: Qiong Wu, Shubin Huang, Yiyi Zhou, Pingyang Dai, Annan Shu, Guannan Jiang, Rongrong Ji
Abstract要約: 視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
参考スコア（独自算出の注目度）: 61.83828779751929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt tuning is a parameter-efficient way to deploy large-scale pre-trained models to downstream tasks by adding task-specific tokens. In terms of vision-language pre-trained (VLP) models, prompt tuning often requires a large number of learnable tokens to bridge the gap between the pre-training and downstream tasks, which greatly exacerbates the already high computational overhead. In this paper, we revisit the principle of prompt tuning for Transformer-based VLP models and reveal that the impact of soft prompt tokens can be actually approximated via independent information diffusion steps, thereby avoiding the expensive global attention modeling and reducing the computational complexity to a large extent. Based on this finding, we propose a novel Approximated Prompt Tuning (APT) approach towards efficient VL transfer learning. To validate APT, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of downstream tasks. Meanwhile, the generalization of APT is also validated on CLIP for image classification. The experimental results not only show the superior performance gains and computation efficiency of APT against the conventional prompt tuning methods, e.g., +6.6% accuracy and -64.62% additional computation overhead on METER, but also confirm its merits over other parameter-efficient transfer learning approaches.
Abstract（参考訳）: プロンプトチューニングは、タスク固有のトークンを追加することで、大規模な事前訓練されたモデルを下流タスクにデプロイするパラメータ効率のよい方法である。視覚言語事前学習モデル(vlp)の観点では、プロンプトチューニングは、事前学習と下流タスクの間のギャップを埋めるために、多くの学習可能なトークンを必要とすることが多い。本稿では,変圧器を用いたvlpモデルのプロンプトチューニングの原理を再検討し,ソフトプロンプトトークンの影響を,独立した情報拡散ステップによって実際に近似できることを明らかにした。そこで本研究では,効率的なVL転送学習へのAPT(Approximated Prompt Tuning)アプローチを提案する。 APTを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、下流タスクの広範な実験を行う。一方、画像分類のためのCLIPでは、APTの一般化も検証されている。実験の結果、従来のプロンプト・チューニング法(+6.6%精度、-64.62%)に対するaptの性能向上と計算効率が向上しただけでなく、他のパラメータ効率の高いトランスファー・ラーニング手法に対するメリットも確認できた。

関連論文リスト

The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文参考訳（メタデータ） (2025-01-31T07:41:06Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。 CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。 CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。 TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文参考訳（メタデータ） (2024-07-22T17:59:19Z)
Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文参考訳（メタデータ） (2024-02-04T07:49:02Z)
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文参考訳（メタデータ） (2023-09-04T09:34:33Z)
PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。事前学習型ビジュアルを提案する。効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文参考訳（メタデータ） (2023-04-26T15:55:29Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文参考訳（メタデータ） (2021-09-24T08:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。