論文の概要: HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2203.03878v1
- Date: Tue, 8 Mar 2022 06:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 01:00:00.303699
- Title: HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks
- Title(参考訳): HyperPELT: 言語と視覚・言語の両方のための統一パラメータ効率言語モデルチューニング
- Authors: Zhengkun Zhang, Wenya Guo, Xiaojun Meng, Yasheng Wang, Yadao Wang, Xin
Jiang, Qun Liu, Zhenglu Yang
- Abstract要約: パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
- 参考スコア(独自算出の注目度): 38.43269863509866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The workflow of pretraining and fine-tuning has emerged as a popular paradigm
for solving various NLP and V&L (Vision-and-Language) downstream tasks. With
the capacity of pretrained models growing rapidly, how to perform
parameter-efficient fine-tuning has become fairly important for quick transfer
learning and deployment. In this paper, we design a novel unified
parameter-efficient transfer learning framework that works effectively on both
pure language and V&L tasks. In particular, we use a shared hypernetwork that
takes trainable hyper-embeddings as input, and outputs weights for fine-tuning
different small modules in a pretrained language model, such as tuning the
parameters inserted into multi-head attention blocks (i.e., prefix-tuning) and
feed-forward blocks (i.e., adapter-tuning). We define a set of embeddings
(e.g., layer, block, task and visual embeddings) as the key components to
calculate hyper-embeddings, which thus can support both pure language and V&L
tasks. Our proposed framework adds fewer trainable parameters in multi-task
learning while achieving superior performances and transfer ability compared to
state-of-the-art methods. Empirical results on the GLUE benchmark and multiple
V&L tasks confirm the effectiveness of our framework on both textual and visual
modalities.
- Abstract(参考訳): プレトレーニングと微調整のワークフローは、様々なNLPおよびV&L(Vision-and-Language)下流タスクを解決するための一般的なパラダイムとして登場した。
事前学習モデルの能力が急速に向上するにつれて、パラメータ効率のよい微調整の方法が、迅速な転送学習とデプロイメントにおいて極めて重要になっている。
本稿では、純粋言語とV&Lタスクの両方で効果的に動作する新しいパラメータ効率変換学習フレームワークを設計する。
特に、トレーニング可能なハイパー埋め込みを入力として利用する共有ハイパーネットワークを使用し、マルチヘッドアテンションブロック(プレフィックスチューニング)やフィードフォワードブロック(アダプタチューニング)に挿入されるパラメータをチューニングするなど、事前訓練された言語モデルで異なる小さなモジュールを微調整するための重みを出力する。
我々は、ハイパー埋め込みを計算するための重要なコンポーネントとして、埋め込み(レイヤ、ブロック、タスク、視覚的な埋め込みなど)のセットを定義し、純粋言語とV&Lタスクの両方をサポートする。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現する。
GLUEベンチマークと複数のV&Lタスクによる実験結果から,テキストと視覚の両面でのフレームワークの有効性が確認された。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。