論文の概要: Dynamic Corrective Self-Distillation for Better Fine-Tuning of
Pretrained Models
- arxiv url: http://arxiv.org/abs/2312.07028v1
- Date: Tue, 12 Dec 2023 07:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:27:53.963294
- Title: Dynamic Corrective Self-Distillation for Better Fine-Tuning of
Pretrained Models
- Title(参考訳): 事前学習モデルの精密調整のための動的補正自己蒸留法
- Authors: Ibtihel Amara, Vinija Jain, and Aman Chadha
- Abstract要約: プレトレーニング言語モデル(PLM)の伝達学習過程において発生する攻撃的微調整の問題に対処する。
従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するための効果的な動的補正自己蒸留手法を提案する。
本手法は,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行することを含む。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the challenging issue of aggressive fine-tuning encountered during
the process of transfer learning of pre-trained language models (PLMs) with
limited labeled downstream data. This problem primarily results in a decline in
performance on the subsequent task. Inspired by the adaptive boosting method in
traditional machine learning, we present an effective dynamic corrective
self-distillation (DCS) approach to improve the fine-tuning of the PLMs. Our
technique involves performing a self-distillation mechanism where, at each
iteration, the student model actively adapts and corrects itself by dynamically
adjusting the weights assigned to individual data points. This iterative
self-correcting process significantly enhances the overall fine-tuning
capability of PLMs, leading to improved performance and robustness. We
conducted comprehensive evaluations using the GLUE benchmark demonstrating the
efficacy of our method in enhancing the fine-tuning process for various PLMs
across diverse downstream tasks.
- Abstract(参考訳): 我々は,ラベル付き下流データを含む事前学習言語モデル(plm)の転送学習過程において遭遇する積極的な微調整の問題に取り組む。
この問題は、主にその後のタスクでパフォーマンスが低下する結果となる。
従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するために有効な動的補正自己蒸留法を提案する。
本手法では,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行する。
この反復的自己補正プロセスは、PLMの全体的な微調整能力を大幅に向上させ、性能と堅牢性を向上させる。
本手法の有効性をGLUEベンチマークを用いて総合評価し,様々な下流タスクにおけるPLMの微調整プロセスの強化について検証した。
関連論文リスト
- Learning to Unlearn for Robust Machine Unlearning [6.488418950340473]
学習過程を最適化する新しいLTU(Learning-to-Unlearn)フレームワークを提案する。
LTUは、モデルが一般化可能な知識を効果的に保存することを容易にするメタ最適化スキームを含んでいる。
また、記憶と忘れのための最適化トラジェクトリを整列するグラディエント調和戦略も導入する。
論文 参考訳(メタデータ) (2024-07-15T07:36:00Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。