論文の概要: Parameter-Efficient Tuning Makes a Good Classification Head
- arxiv url: http://arxiv.org/abs/2210.16771v1
- Date: Sun, 30 Oct 2022 08:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:21:59.076487
- Title: Parameter-Efficient Tuning Makes a Good Classification Head
- Title(参考訳): パラメータ効率の良いチューニングによる優れた分類ヘッド
- Authors: Zhuoyi Yang, Ming Ding, Yanhui Guo, Qingsong Lv, Jie Tang
- Abstract要約: パラメータ効率のよいチューニングは、ランダムに生成したヘッドを置き換えることで、安定した性能向上を実現することができる。
実験により,パラメータ効率の調整で事前訓練された分類ヘッドは,GLUEとSuperGLUEの9つのタスクにおける性能を一貫して向上することを示した。
- 参考スコア(独自算出の注目度): 20.429111791917634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, pretrained models revolutionized the paradigm of natural
language understanding (NLU), where we append a randomly initialized
classification head after the pretrained backbone, e.g. BERT, and finetune the
whole model. As the pretrained backbone makes a major contribution to the
improvement, we naturally expect a good pretrained classification head can also
benefit the training. However, the final-layer output of the backbone, i.e. the
input of the classification head, will change greatly during finetuning, making
the usual head-only pretraining (LP-FT) ineffective. In this paper, we find
that parameter-efficient tuning makes a good classification head, with which we
can simply replace the randomly initialized heads for a stable performance
gain. Our experiments demonstrate that the classification head jointly
pretrained with parameter-efficient tuning consistently improves the
performance on 9 tasks in GLUE and SuperGLUE.
- Abstract(参考訳): 近年、事前訓練されたモデルは自然言語理解(NLU)のパラダイムに革命をもたらし、事前訓練されたバックボーン(例えばBERT)の後、ランダムに初期化された分類ヘッドを付加し、モデル全体を微調整する。
トレーニング済みのバックボーンは改善に大きく貢献するので,優れたトレーニング済みの分類ヘッドがトレーニングに役立てられることを自然に期待する。
しかし、バックボーンの最終層出力、すなわち分類ヘッドの入力は微調整中に大きく変化するため、通常のヘッドのみの事前訓練(LP-FT)は非効率である。
本稿では,パラメータ効率のよいチューニングにより,ランダムに初期化したヘッドを置き換えて,安定した性能向上を実現することができることを示す。
本実験では,パラメータ効率の調整を併用した分類ヘッドが,グルーとスーパーグルーの9タスクの性能を一貫して向上させることを示す。
関連論文リスト
- Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。
提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。
提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文 参考訳(メタデータ) (2024-06-04T16:12:27Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - Improving Self-supervised Learning for Out-of-distribution Task via
Auxiliary Classifier [6.61825491400122]
我々は,OODタスクにおける回転予測(自己教師付き)精度と意味分類精度の強い関係を観察する。
マルチタスクネットワークにセマンティックな分類と回転予測と共に補助的な分類ヘッドを導入する。
提案手法は,上層部で意味分類と回転予測のパラメータを更新する2段階最適化問題である。
論文 参考訳(メタデータ) (2022-09-07T02:00:01Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。