論文の概要: Kronecker Factorization for Preventing Catastrophic Forgetting in
Large-scale Medical Entity Linking
- arxiv url: http://arxiv.org/abs/2111.06012v1
- Date: Thu, 11 Nov 2021 01:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-13 01:05:58.826165
- Title: Kronecker Factorization for Preventing Catastrophic Forgetting in
Large-scale Medical Entity Linking
- Title(参考訳): 大規模医療エンティティリンクにおけるカタストロフィック形成防止のためのKronecker因子の同定
- Authors: Denis Jered McInerney, Luyang Kong, Kristjan Arumae, Byron Wallace,
Parminder Bhatia
- Abstract要約: 医療分野では、タスクのシーケンシャルなトレーニングがモデルをトレーニングする唯一の方法である場合もあります。
破滅的な忘れ物、すなわち、新しいタスクのためにモデルが更新されたとき、以前のタスクの精度が大幅に低下します。
本稿では,この手法が3つのデータセットにまたがる医療機関の重要かつ実証的な課題に有効であることを示す。
- 参考スコア(独自算出の注目度): 7.723047334864811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task learning is useful in NLP because it is often practically
desirable to have a single model that works across a range of tasks. In the
medical domain, sequential training on tasks may sometimes be the only way to
train models, either because access to the original (potentially sensitive)
data is no longer available, or simply owing to the computational costs
inherent to joint retraining. A major issue inherent to sequential learning,
however, is catastrophic forgetting, i.e., a substantial drop in accuracy on
prior tasks when a model is updated for a new task. Elastic Weight
Consolidation is a recently proposed method to address this issue, but scaling
this approach to the modern large models used in practice requires making
strong independence assumptions about model parameters, limiting its
effectiveness. In this work, we apply Kronecker Factorization--a recent
approach that relaxes independence assumptions--to prevent catastrophic
forgetting in convolutional and Transformer-based neural networks at scale. We
show the effectiveness of this technique on the important and illustrative task
of medical entity linking across three datasets, demonstrating the capability
of the technique to be used to make efficient updates to existing methods as
new medical data becomes available. On average, the proposed method reduces
catastrophic forgetting by 51% when using a BERT-based model, compared to a 27%
reduction using standard Elastic Weight Consolidation, while maintaining
spatial complexity proportional to the number of model parameters.
- Abstract(参考訳): マルチタスク学習は、様々なタスクにまたがる単一のモデルを持つことが事実上望ましいため、NLPで有用である。
医学領域において、タスクのシーケンシャルトレーニングは、元の(潜在的に敏感な)データへのアクセスがもはや利用できないことや、単に共同再トレーニングに固有の計算コストのために、モデルをトレーニングする唯一の方法である。
しかし、シーケンシャルラーニングに固有の大きな問題は破滅的な忘れ、すなわち、新しいタスクのためにモデルが更新されたときのタスクに対する精度の大幅な低下である。
弾性重み統合は、この問題に対処するために最近提案された方法であるが、このアプローチを実際に使われているモダンな大規模モデルにスケールするには、モデルパラメータに関する強い独立性の仮定が必要であり、その効果は制限される。
本研究では,独立性の仮定を緩和する最近のアプローチであるKronecker Factorizationを適用し,畳み込みとトランスフォーマーに基づく大規模ニューラルネットワークにおける破滅的な忘れを防止する。
3つのデータセットにまたがる医療エンティティの重要かつ説明的なタスクにおいて,本手法の有効性を示し,新たな医療データが利用可能になると,既存の手法を効率的に更新するための手法の能力を示す。
平均的に, bertモデルを用いた場合, モデルパラメータ数に比例する空間的複雑性を維持しつつ, 標準弾性重み密化による27%の削減に比べ, 破壊的忘れ込みを51%削減した。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Network reconstruction via the minimum description length principle [0.0]
階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文 参考訳(メタデータ) (2024-05-02T05:35:09Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation [20.94974284175104]
FSEFT(Few-Shot Efficient Fine-Tuning)は、医用画像セグメンテーション基礎モデルに適用するための、新規かつ現実的なシナリオである。
総合的な転写学習実験により, 医用画像分割における基礎モデルの適合性を確認し, 数ショットのシナリオにおいて, 一般的な微調整戦略の限界を明らかにする。
論文 参考訳(メタデータ) (2023-03-29T22:50:05Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。