論文の概要: Fine-Tuning Language Models via Epistemic Neural Networks
- arxiv url: http://arxiv.org/abs/2211.01568v2
- Date: Wed, 10 May 2023 21:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:40:15.335367
- Title: Fine-Tuning Language Models via Epistemic Neural Networks
- Title(参考訳): 認識型ニューラルネットワークによる微調整言語モデル
- Authors: Ian Osband, Seyed Mohammad Asghari, Benjamin Van Roy, Nat McAleese,
John Aslanides, Geoffrey Irving
- Abstract要約: 情報的トレーニングデータを優先順位付けできるならば、ラベルを減らしながらパフォーマンスを向上できることが示されます。
エピネットを使用して不確実なデータを優先順位付けし、GLUEタスク上のBERTを、優先順位付けなしでトレーニングよりも2倍少ないデータを使用しながら、同じパフォーマンスに微調整することができる。
- 参考スコア(独自算出の注目度): 17.92941914728862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models often pre-train on large unsupervised text corpora, then
fine-tune on additional task-specific data. However, typical fine-tuning
schemes do not prioritize the examples that they tune on. We show that, if you
can prioritize informative training data, you can achieve better performance
while using fewer labels. To do this we augment a language model with an
epinet: a small additional network that helps to estimate model uncertainty and
forms an \textit{epistemic neural network} (ENN). ENNs are neural networks that
can know what they don't know. Using an epinet to prioritize uncertain data, we
can fine-tune BERT on GLUE tasks to the same performance while using 2x less
data than training without prioritization. We also investigate performance in
synthetic neural network generative models designed to build understanding. In
each setting, using an epinet outperforms heuristic active learning schemes.
- Abstract(参考訳): 言語モデルは、しばしば大きな教師なしテキストコーパスで事前トレーニングされ、追加のタスク固有のデータで微調整される。
しかし、典型的な微調整スキームは、チューニングした例を優先しない。
情報的トレーニングデータを優先順位付けできるならば、ラベルを減らしながらパフォーマンスを向上できることが示されます。
モデルの不確かさを推定し、 \textit{epistemic neural network} (enn) を形成するのに役立つ小さな追加のネットワークである。
ennは、彼らが知らないことを理解できるニューラルネットワークです。
epinetを使って不確かなデータを優先順位付けすることで、優先順位付けせずにトレーニングよりも2倍少ないデータを使用しながら、タスクを同じパフォーマンスに微調整することができる。
また,理解を構築するために設計された合成ニューラルネットワーク生成モデルの性能について検討する。
それぞれの設定において、エピネットの使用はヒューリスティックなアクティブラーニングスキームより優れている。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - An Initialization Schema for Neuronal Networks on Tabular Data [0.9155684383461983]
本稿では,二項ニューラルネットワークが表データに対して有効に利用できることを示す。
提案手法はニューラルネットワークの最初の隠蔽層を初期化するための単純だが効果的なアプローチを示す。
我々は、複数の公開データセットに対する我々のアプローチを評価し、他のニューラルネットワークベースのアプローチと比較して、改善されたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-11-07T13:52:35Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Efficacy of Bayesian Neural Networks in Active Learning [11.609770399591516]
ベイズニューラルネットワークは、アンサンブルに基づく不確実性を捕捉する技術よりも効率的であることを示す。
また,近年,モンテカルロのドロップアウトよりも効果的であることが判明したアンサンブル技法の重要な欠点も明らかにした。
論文 参考訳(メタデータ) (2021-04-02T06:02:11Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。