論文の概要: Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively
- arxiv url: http://arxiv.org/abs/2211.01642v1
- Date: Thu, 3 Nov 2022 08:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-04 12:15:44.269654
- Title: Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively
- Title(参考訳): サブネットワークの適応最適化による事前学習型言語モデルの構築
- Authors: Haojie Zhang, Ge Li, Jia Li, Zhongjin Zhang, Yuqi Zhu, Zhi Jin
- Abstract要約: 微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
- 参考スコア(独自算出の注目度): 32.001304911395756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models have achieved impressive results on a
wide range of downstream tasks recently. However, fine-tuning an extremely
large-scale pre-trained language model on limited target datasets is often
plagued by overfitting and representation degradation. In this paper, we
propose a Dynamic Parameter Selection (DPS) algorithm for the large-scale
pre-trained models during fine-tuning, which adaptively selects a more
promising subnetwork to perform staging updates based on gradients of
back-propagation. Experiments on the GLUE benchmark show that DPS outperforms
previous fine-tuning methods in terms of overall performance and stability, and
consistently achieves better results with variable pre-trained language models.
In addition, DPS brings a large magnitude of improvement in out-of-domain
transferring experiments and low-resource scenarios, which shows that it can
maintain stable general contextual features and reduce the representation
collapse. We release our code at https://github.com/ZhangHaojie077/DPS
- Abstract(参考訳): 大規模事前学習された言語モデルは最近、幅広い下流タスクで印象的な成果を上げている。
しかし、限られたターゲットデータセット上で非常に大規模な事前訓練言語モデルを微調整することは、過度な適合と表現の劣化に悩まされることが多い。
本稿では,より有望なサブネットワークを適応的に選択し,バックプロパゲーションの勾配に基づいてステージング更新を行う,大規模事前学習モデルに対する動的パラメータ選択(dps)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の観点から従来の微調整法よりも優れており、可変事前学習言語モデルによるより良い結果が一貫して得られている。
さらに、DPSはドメイン外転送実験と低リソースシナリオを大幅に改善し、安定した一般的なコンテキスト特徴を維持でき、表現の崩壊を低減できることを示した。
コードはhttps://github.com/zhanghaojie077/dpsでリリースします。
関連論文リスト
- Weight Decay Improves Language Model Plasticity [9.005013915262658]
本研究では, モデル可塑性の観点から, ベースモデルが下流タスクに適応する能力について検討する。
より大きい重量減衰値で訓練されたモデルは、よりプラスチックであり、下流タスクで微調整された場合、より大きな性能向上を示す。
論文 参考訳(メタデータ) (2026-02-11T18:49:26Z) - Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models [2.83595986479415]
タスク固有データに対する細調整型マルチモーダル言語モデル(MLLM)は、下流アプリケーションの性能向上に有効な方法である。
この問題を緩和しようとする既存の手法は、言語デコーダの深い層を微調整した場合や、モデルのサイズが大きくなるにつれて、効果が低下する。
本稿では,MLLMの新しい細粒度調整手法であるModel-Dowserを提案する。
論文 参考訳(メタデータ) (2026-02-04T12:56:27Z) - Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - POME: Post Optimization Model Edit via Muon-style Projection [74.73326657229347]
POME(Post-Optimization Model Edit)は、微調整された大規模言語モデルの性能を向上させる。
デルタW$のミューオン式のプロジェクションを使い、微調整された重量と事前訓練された重量の違いを区別する。
単純な後処理ステップとして、POMEはトレーニングパイプラインから完全に分離される。
論文 参考訳(メタデータ) (2025-10-08T04:20:11Z) - Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.796591192359044]
オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文 参考訳(メタデータ) (2025-06-04T08:31:33Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文 参考訳(メタデータ) (2024-01-08T17:44:43Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。