論文の概要: HyperPrompt: Prompt-based Task-Conditioning of Transformers
- arxiv url: http://arxiv.org/abs/2203.00759v1
- Date: Tue, 1 Mar 2022 21:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 08:52:59.168531
- Title: HyperPrompt: Prompt-based Task-Conditioning of Transformers
- Title(参考訳): HyperPrompt: トランスフォーマーのプロンプトベースのタスクコンディショニング
- Authors: Yun He, Huaixiu Steven Zheng, Yi Tay, Jai Gupta, Yu Du, Vamsi
Aribandi, Zhe Zhao, YaGuang Li, Zhao Chen, Donald Metzler, Heng-Tze Cheng, Ed
H. Chi
- Abstract要約: HyperPromptは、トランスフォーマーにおける自己アテンションのプロンプトベースのタスクコンディショニングのための新しいアーキテクチャである。
ハイパープロンプトはHyperNetworkの生成を通じてエンドツーエンドで学習可能である。
我々はHyperPromptが、タスク条件パラメータを0.14%も加えることなく、強力なマルチタスク学習ベースラインと競合していることを示す。
- 参考スコア(独自算出の注目度): 69.12812145948232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-Tuning is a new paradigm for finetuning pre-trained language models in
a parameter-efficient way. Here, we explore the use of HyperNetworks to
generate hyper-prompts: we propose HyperPrompt, a novel architecture for
prompt-based task-conditioning of self-attention in Transformers. The
hyper-prompts are end-to-end learnable via generation by a HyperNetwork.
HyperPrompt allows the network to learn task-specific feature maps where the
hyper-prompts serve as task global memories for the queries to attend to, at
the same time enabling flexible information sharing among tasks. We show that
HyperPrompt is competitive against strong multi-task learning baselines with as
few as $0.14\%$ of additional task-conditioning parameters, achieving great
parameter and computational efficiency. Through extensive empirical
experiments, we demonstrate that HyperPrompt can achieve superior performances
over strong T5 multi-task learning baselines and parameter-efficient adapter
variants including Prompt-Tuning and HyperFormer++ on Natural Language
Understanding benchmarks of GLUE and SuperGLUE across many model sizes.
- Abstract(参考訳): Prompt-Tuningは、事前訓練された言語モデルをパラメータ効率良く微調整するための新しいパラダイムである。
本稿では,ハイパーネットワークを用いたハイパープロンプトの生成について検討する。トランスフォーマーにおける自己着脱のプロンプトベースのタスクコンディショニングのための新しいアーキテクチャであるhyperpromptを提案する。
ハイパープロンプトはHyperNetworkの生成を通じてエンドツーエンドで学習可能である。
hyperpromptを使用すると、ネットワークはタスク固有の特徴マップを学習でき、ハイパープロキシがタスクのグローバルメモリとして機能すると同時に、タスク間で柔軟な情報共有を可能にする。
我々はHyperPromptが,タスク条件パラメータを0.14 %程度追加することで,強力なマルチタスク学習ベースラインと競合し,優れたパラメータと計算効率を実現していることを示す。
実験的な実験により,HyperPromptは強力なT5マルチタスク学習ベースラインや,Prompt-TuningやHyperFormer++ on Natural Language Understandingベンチマークなど,パラメータ効率のよいアダプタバリアントよりも優れた性能を実現することができることを示した。
関連論文リスト
- PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - Convolutional Prompting meets Language Models for Continual Learning [4.115213208594654]
継続学習(CL)により、機械学習モデルは、古いタスクからのデータなしで、新しいトレーニングデータを継続的にシフトすることから学ぶことができる。
ConvPromptは、階層的に共有された埋め込みを維持する新しい畳み込みプロンプト生成機構である。
畳み込みのインテリジェントな利用により、パフォーマンスを損なうことなく、低パラメータのオーバーヘッドを維持することができます。
論文 参考訳(メタデータ) (2024-03-29T17:40:37Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient
Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。
異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。
パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文 参考訳(メタデータ) (2022-05-24T10:48:33Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。