論文の概要: GIST: Improving Parameter Efficient Fine Tuning via Knowledge
Interaction
- arxiv url: http://arxiv.org/abs/2312.07255v1
- Date: Tue, 12 Dec 2023 13:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:03:29.441953
- Title: GIST: Improving Parameter Efficient Fine Tuning via Knowledge
Interaction
- Title(参考訳): GIST:知識相互作用によるパラメータ効率的な微調整の改善
- Authors: Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang, Zefang Yu,
Ting Liu, Yuzhuo Fu
- Abstract要約: 本稿では,GISTと呼ばれるファインチューニングフレームワークをプラグアンドプレイ方式で提案する。
具体的には、まず、下流タスクにPEFTメソッドを適用する際に、Gistトークンと呼ばれるトレーニング可能なトークンを導入します。
このトークンはPEFT法によって学習されたタスク固有の知識の集合体として機能し、下流の知識と明示的な結びつきを形成する。
- 参考スコア(独自算出の注目度): 16.371592369253623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Parameter-Efficient Fine-Tuning (PEFT) method, which adjusts or
introduces fewer trainable parameters to calibrate pre-trained models on
downstream tasks, has become a recent research interest. However, existing PEFT
methods within the traditional fine-tiuning framework have two main
shortcomings: 1) They overlook the explicit association between trainable
parameters and downstream task knowledge. 2) They neglect the interaction
between the intrinsic task-agnostic knowledge of pre-trained models and the
task-specific knowledge in downstream tasks. To address this gap, we propose a
novel fine-tuning framework, named GIST, in a plug-and-play manner.
Specifically, our framework first introduces a trainable token, called the Gist
token, when applying PEFT methods on downstream tasks. This token serves as an
aggregator of the task-specific knowledge learned by the PEFT methods and forms
an explicit association with downstream knowledge. Furthermore, to facilitate
explicit interaction between task-agnostic and task-specific knowledge, we
introduce the concept of Knowledge Interaction via a Bidirectional
Kullback-Leibler Divergence objective. As a result, PEFT methods within our
framework can make the pre-trained model understand downstream tasks more
comprehensively by leveraging the knowledge interaction. Extensive experiments
demonstrate the universality and scalability of our framework. Notably, on the
VTAB-1K benchmark, we employ the Adapter (a prevalent PEFT method) within our
GIST framework and achieve a performance boost of 2.25%, with an increase of
only 0.8K parameters. The Code will be released.
- Abstract(参考訳): 下流タスクにおける事前学習モデルの校正のためのトレーニング可能なパラメータの調整や導入を行うPEFT法が近年注目されている。
しかし、従来の細結合フレームワーク内の既存のPEFTメソッドには、主な欠点が2つある。
1)訓練可能なパラメータと下流のタスク知識との明確な関連性を見落としている。
2)学習モデルの内在的タスク非依存知識と下流タスクにおけるタスク固有の知識との相互作用を無視する。
このギャップに対処するため,GISTと呼ばれるファインチューニングフレームワークをプラグアンドプレイ方式で提案する。
具体的には、まず、下流タスクにPEFTメソッドを適用する際に、Gistトークンと呼ばれるトレーニング可能なトークンを導入する。
このトークンはPEFT法によって学習されたタスク固有の知識の集合体として機能し、下流の知識との明確な関連を形成する。
さらに,タスクに依存しない知識とタスク固有の知識との明示的な相互作用を促進するために,双方向のKulback-Leibler Divergence目標を用いた知識相互作用の概念を導入する。
その結果、我々のフレームワーク内のPEFT手法は、知識相互作用を利用して、事前学習されたモデルに下流タスクをより包括的に理解させることができる。
大規模な実験は、我々のフレームワークの普遍性とスケーラビリティを実証する。
特に、VTAB-1Kベンチマークでは、GISTフレームワークにAdapter(PEFT法)を採用し、2.25%の性能向上を実現し、0.8Kパラメータしか増加しない。
コードはリリースされます。
関連論文リスト
- Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Multi-domain Knowledge Graph Collaborative Pre-training and Prompt Tuning for Diverse Downstream Tasks [48.102084345907095]
知識グラフ事前学習(KGP)は、大規模知識グラフ(KG)上でニューラルネットワークを事前訓練することを目的としている
MuDoKは、異なる下流タスクバックボーンに適応可能な、プラグインとプレイのプロンプト学習アプローチである。
私たちのフレームワークは、その汎用性、効率性、転送可能性とともに、大幅なパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-05-21T08:22:14Z) - PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - Towards Plastic and Stable Exemplar-Free Incremental Learning: A Dual-Learner Framework with Cumulative Parameter Averaging [12.168402195820649]
In this proposed a Dual-Learner framework with Cumulative。
平均化(DLCPA)
DLCPA は Task-IL と Class-IL の両方の設定において,最先端の既定ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:48:44Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。