論文の概要: Prompt Tuning for Generative Multimodal Pretrained Models
- arxiv url: http://arxiv.org/abs/2208.02532v1
- Date: Thu, 4 Aug 2022 08:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:27:28.661355
- Title: Prompt Tuning for Generative Multimodal Pretrained Models
- Title(参考訳): 生成型マルチモーダル事前学習モデルのプロンプトチューニング
- Authors: Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang
- Abstract要約: 我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。
実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。
微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
- 参考スコア(独自算出の注目度): 75.44457974275154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning has become a new paradigm for model tuning and it has
demonstrated success in natural language pretraining and even vision
pretraining. In this work, we explore the transfer of prompt tuning to
multimodal pretraining, with a focus on generative multimodal pretrained
models, instead of contrastive ones. Specifically, we implement prompt tuning
on the unified sequence-to-sequence pretrained model adaptive to both
understanding and generation tasks. Experimental results demonstrate that the
light-weight prompt tuning can achieve comparable performance with finetuning
and surpass other light-weight tuning methods. Besides, in comparison with
finetuned models, the prompt-tuned models demonstrate improved robustness
against adversarial attacks. We further figure out that experimental factors,
including the prompt length, prompt depth, and reparameteratization, have great
impacts on the model performance, and thus we empirically provide a
recommendation for the setups of prompt tuning. Despite the observed
advantages, we still find some limitations in prompt tuning, and we
correspondingly point out the directions for future studies. Codes are
available at \url{https://github.com/OFA-Sys/OFA}
- Abstract(参考訳): プロンプトチューニングはモデルチューニングの新しいパラダイムとなり、自然言語の事前学習や視覚前訓練でも成功している。
本研究では,コントラストモデルではなく,生成的マルチモーダルプリトレーニングモデルに着目し,プロンプトチューニングをマルチモーダルプリトレーニングへ移行することを検討する。
具体的には,理解タスクと生成タスクの両方に適応した統一シーケンスからシーケンスへの事前学習モデル上で,迅速なチューニングを実現する。
実験の結果, 軽量プロンプトチューニングは, 微調整と同等の性能を達成でき, 他の軽量チューニング法を上回った。
さらに、微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
さらに,プロンプト長,プロンプト深さ,再パラメータ化などの実験的な要因がモデル性能に大きな影響を与えることを見出し,プロンプトチューニングのセットアップに実験的に推奨する。
観測された利点にもかかわらず、迅速なチューニングにはまだいくつかの制限があり、今後の研究の方向性を指摘する。
コードは \url{https://github.com/OFA-Sys/OFA} で入手できる。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer [44.10678347943115]
クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。
本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。
適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-29T05:23:12Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Visual Tuning [143.43997336384126]
微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。
最近の進歩は、事前訓練されたパラメータ全体をフルチューニングするよりも優れたパフォーマンスを達成することができる。
この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、作業とモデルの体系的かつ包括的な概要を提供する。
論文 参考訳(メタデータ) (2023-05-10T11:26:36Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - XPrompt: Exploring the Extreme of Prompt Tuning [31.242680485717447]
本稿では,宝くじの仮説の下で,eXtremely small scale (XPrompt) を用いた新しいPromptチューニングモデルを提案する。
XPromptは階層的な構造化プルーニングによって異なるレベルの負のプロンプトトークンを排除し、よりパラメータ効率のよいプロンプトを競合性能で得る。
論文 参考訳(メタデータ) (2022-10-10T06:57:19Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。