Fugu-MT 論文翻訳(概要): Revisiting the Power of Prompt for Visual Tuning

論文の概要: Revisiting the Power of Prompt for Visual Tuning

arxiv url: http://arxiv.org/abs/2402.02382v1
Date: Sun, 4 Feb 2024 07:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:01:17.209137
Title: Revisiting the Power of Prompt for Visual Tuning
Title（参考訳）: 視覚チューニングのためのプロンプトのパワーの再検討
Authors: Yuzhu Wang, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Manni Duan, Meng Wang
Abstract要約: 本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
参考スコア（独自算出の注目度）: 53.102284329377056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual prompt tuning (VPT) is a promising solution incorporating learnable prompt tokens to customize pre-trained models for downstream tasks. However, VPT and its variants often encounter challenges like prompt initialization, prompt length, and subpar performance in self-supervised pretraining, hindering successful contextual adaptation. This study commences by exploring the correlation evolvement between prompts and patch tokens during proficient training. Inspired by the observation that the prompt tokens tend to share high mutual information with patch tokens, we propose initializing prompts with downstream token prototypes. The strategic initialization, a stand-in for the previous initialization, substantially improves performance in fine-tuning. To refine further, we optimize token construction with a streamlined pipeline that maintains excellent performance with almost no increase in computational expenses compared to VPT. Exhaustive experiments show our proposed approach outperforms existing methods by a remarkable margin. For instance, it surpasses full fine-tuning in 19 out of 24 tasks, using less than 0.4% of learnable parameters on the FGVC and VTAB-1K benchmarks. Notably, our method significantly advances the adaptation for self-supervised pretraining, achieving impressive task performance gains of at least 10% to 30%. Besides, the experimental results demonstrate the proposed SPT is robust to prompt lengths and scales well with model capacity and training data size. We finally provide an insightful exploration into the amount of target data facilitating the adaptation of pre-trained models to downstream tasks.
Abstract（参考訳）: ビジュアルプロンプトチューニング(VPT)は、学習可能なプロンプトトークンを組み込んだ有望なソリューションである。しかし、vstとその変種は、しばしば自己教師付き事前学習におけるプロンプト初期化、プロンプト長さ、サブパー性能といった課題に遭遇し、文脈適応の成功を妨げている。本研究は,訓練中のプロンプトとパッチトークンの相関関係を探究することで開始する。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあり,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。戦略初期化は、以前の初期化のスタンドインであり、微調整のパフォーマンスが大幅に向上する。さらに改良するために,VPTに比べて計算コストがほとんど増加せず,優れた性能を維持した合理化パイプラインによるトークン構築を最適化する。徹底的な実験は,提案手法が既存の手法を著しく上回っていることを示す。例えば、FGVCとVTAB-1Kベンチマークで学習可能なパラメータの0.4%未満を使用して、24タスク中19タスクで完全な微調整を達成している。特に,本手法は自己指導型プレトレーニングの適応性を著しく向上させ,タスク性能が少なくとも10%から30%向上した。さらに,提案したSPTは,モデルキャパシティやトレーニングデータサイズとともに,長さやスケールの促進に頑健であることを示す実験結果を得た。最後に、トレーニング済みモデルのダウンストリームタスクへの適応を容易にする、ターゲットデータの量に関する洞察に富んだ調査を行う。

関連論文リスト

Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文参考訳（メタデータ） (2025-01-31T07:41:06Z)
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。 CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。 CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Do We Really Need a Large Number of Visual Prompts? [23.85637456240694]
視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
論文参考訳（メタデータ） (2023-05-26T19:31:57Z)
Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文参考訳（メタデータ） (2022-11-04T02:06:22Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)
Learning a Better Initialization for Soft Prompts via Meta-Learning [58.53984967461313]
本稿では,プロンプトチューニングを改善するメタPT(Meta-learned Prompt Tuning)を提案する。まず、事前学習したデータを異なる補助タスクにクラスタリングすることで、その構造を導入する。これらのタスクをメタ学習アルゴリズムでプロンプトの事前学習に使用する。
論文参考訳（メタデータ） (2022-05-25T03:50:23Z)
PPT: Pre-trained Prompt Tuning for Few-shot Learning [47.05554619258627]
事前学習された言語モデル(PLM)のプロンプトは、事前学習タスクと様々な下流タスクのギャップを埋めることで、顕著な性能を示している。これらの手法のうち、PLMを凍結し、ソフトプロンプトのみをチューニングするプロンプトチューニングは、大規模PLMを下流タスクに適用するための効率的かつ効果的なソリューションを提供する。本研究では,下流データで十分である場合,従来のフルモデルファインチューニングと相容れない性能が得られた。
論文参考訳（メタデータ） (2021-09-09T15:11:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。