論文の概要: Improving Generalization of Pre-trained Language Models via Stochastic
Weight Averaging
- arxiv url: http://arxiv.org/abs/2212.05956v1
- Date: Mon, 12 Dec 2022 15:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:07:47.819993
- Title: Improving Generalization of Pre-trained Language Models via Stochastic
Weight Averaging
- Title(参考訳): 確率重み平均化による事前学習言語モデルの一般化の改善
- Authors: Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Ahmad Rashid, Ali Ghodsi,
Philippe Langlais
- Abstract要約: 知識蒸留(KD)は、コンパクトな事前学習言語モデル(PLM)の一般化を改善するための一般的な技術である。
我々は、より平坦な最小値への収束を促す手法であるウェイト平均化(SWA)を微調整 PLM に適用する。
我々の適応は余分なコストを伴わずに一般化を改善することを実証する。
- 参考スコア(独自算出の注目度): 25.856435988848638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a commonly used technique for improving the
generalization of compact Pre-trained Language Models (PLMs) on downstream
tasks. However, such methods impose the additional burden of training a
separate teacher model for every new dataset. Alternatively, one may directly
work on the improvement of the optimization procedure of the compact model
toward better generalization. Recent works observe that the flatness of the
local minimum correlates well with better generalization. In this work, we
adapt Stochastic Weight Averaging (SWA), a method encouraging convergence to a
flatter minimum, to fine-tuning PLMs. We conduct extensive experiments on
various NLP tasks (text classification, question answering, and generation) and
different model architectures and demonstrate that our adaptation improves the
generalization without extra computation cost. Moreover, we observe that this
simple optimization technique is able to outperform the state-of-the-art KD
methods for compact models.
- Abstract(参考訳): 知識蒸留(KD)は、下流タスクにおけるコンパクトな事前学習言語モデル(PLM)の一般化を改善するための一般的な手法である。
しかし、このような方法は、新しいデータセットごとに別の教師モデルをトレーニングする追加の負担を課す。
あるいは、より優れた一般化に向けて、コンパクトモデルの最適化手順の改善に直接取り組むことができる。
近年の研究では、局所的な最小値の平坦性はより良い一般化とよく相関している。
本研究では,より平坦な最小値への収束を促す手法であるSWA(Stochastic Weight Averaging)を微調整PLMに適用する。
我々は、様々なNLPタスク(テキスト分類、質問応答、生成)と異なるモデルアーキテクチャについて広範な実験を行い、追加の計算コストなしで一般化を改善することを示す。
さらに, この単純な最適化手法は, コンパクトモデルに対する最先端KD法よりも優れていることを示す。
関連論文リスト
- Domain Generalization Guided by Large-Scale Pre-Trained Priors [24.74398777539288]
ドメイン一般化(DG)は、限られたソースドメインからモデルをトレーニングすることを目的としており、未知のターゲットドメインに一般化することができる。
大規模事前訓練型ファインチューン(FT-LP)について紹介する。
FT-LPは、事前訓練されたモデルをDG微調整プロセスに前もって組み込んで、各最適化ステップで事前訓練されたモデルを参照することを保証する。
論文 参考訳(メタデータ) (2024-06-09T03:32:32Z) - MAST: Model-Agnostic Sparsified Training [4.962431253126472]
我々は、ブラックボックス関数として機械学習モデル損失を最小限に抑える従来の方法から外れた、新しい最適化問題の定式化を導入する。
従来の定式化とは異なり、提案手法は、初期訓練されたモデルとランダムスケッチ演算子を明示的に組み込む。
本稿では,新しい問題定式化に適応したグラディエント・ディキセント法(SGD)のいくつかの変種について述べる。
論文 参考訳(メタデータ) (2023-11-27T18:56:03Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Model Agnostic Sample Reweighting for Out-of-Distribution Learning [38.843552982739354]
我々は,OOD問題に効果的に対応するために,基本的手法であるtextbfAgnostic SamtextbfPLe rtextbfEweighting (textbfMAPLE)を提案する。
我々のキーとなる考え方は、トレーニングサンプルを効果的に再重み付けすることで、大規模モデルの標準的な経験的リスク最小化トレーニングがOOD一般化性能に優れたものとなるようにすることである。
論文 参考訳(メタデータ) (2023-01-24T05:11:03Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。
我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。
提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文 参考訳(メタデータ) (2022-04-07T17:58:07Z) - Heterogeneous Calibration: A post-hoc model-agnostic framework for
improved generalization [8.815439276597818]
モデル出力にポストホックモデル非依存変換を適用した不均一キャリブレーションの概念を導入し、二項分類タスクにおけるAUC性能を改善する。
単純なパターンを特徴空間の不均一なパーティションと呼び、各パーティションの完全校正がAUCを個別に最適化することを理論的に示す。
このフレームワークの理論的最適性はどんなモデルにも当てはまるが、ディープニューラルネットワーク(DNN)に注目し、このパラダイムの最も単純なインスタンス化をさまざまなオープンソースデータセットでテストする。
論文 参考訳(メタデータ) (2022-02-10T05:08:50Z) - Adapting by Pruning: A Case Study on BERT [9.963251767416967]
対象タスクの性能を最適化するために,事前学習したモデルの神経接続をpruneするプラニングにより適応する新しいモデル適応パラダイムを提案する。
本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。
以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-07T15:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。