論文の概要: Investigating Forgetting in Pre-Trained Representations Through
Continual Learning
- arxiv url: http://arxiv.org/abs/2305.05968v1
- Date: Wed, 10 May 2023 08:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:59:40.665777
- Title: Investigating Forgetting in Pre-Trained Representations Through
Continual Learning
- Title(参考訳): 連続学習による事前学習表現の忘れ方の検討
- Authors: Yun Luo, Zhen Yang, Xuefeng Bai, Fandong Meng, Jie Zhou, Yue Zhang
- Abstract要約: 事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
- 参考スコア(独自算出の注目度): 51.30807066570425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation forgetting refers to the drift of contextualized
representations during continual training. Intuitively, the representation
forgetting can influence the general knowledge stored in pre-trained language
models (LMs), but the concrete effect is still unclear. In this paper, we study
the effect of representation forgetting on the generality of pre-trained
language models, i.e. the potential capability for tackling future downstream
tasks. Specifically, we design three metrics, including overall generality
destruction (GD), syntactic knowledge forgetting (SynF), and semantic knowledge
forgetting (SemF), to measure the evolution of general knowledge in continual
learning. With extensive experiments, we find that the generality is destructed
in various pre-trained LMs, and syntactic and semantic knowledge is forgotten
through continual learning. Based on our experiments and analysis, we further
get two insights into alleviating general knowledge forgetting: 1) training on
general linguistic tasks at first can mitigate general knowledge forgetting; 2)
the hybrid continual learning method can mitigate the generality destruction
and maintain more general knowledge compared with those only considering
rehearsal or regularization.
- Abstract(参考訳): 表現を忘れること(Representation forgetting)とは、連続訓練中の文脈表現の漂流を指す。
直観的には、表現忘れは事前学習された言語モデル(lms)に格納されている一般的な知識に影響を与える可能性があるが、具体的な効果はまだ不明である。
本稿では,事前学習された言語モデルの汎用性,すなわち今後の下流課題に取り組む可能性に対する表現忘れの影響について検討する。
具体的には,総合性破壊(GD),統語的知識忘れ(SynF),意味的知識忘れ(SemF)の3つの指標を設計し,連続学習における一般知識の進化を測定する。
広範な実験により,様々な事前学習されたLMにおいて一般性は破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
実験と分析に基づいて、一般的な知識の忘れを和らげるための2つの洞察を得る。
1) 当初一般言語課題の訓練は,一般知識の忘れを軽減できる。
2) ハイブリッド連続学習法は, リハーサルや正規化を考慮すれば, 一般性破壊を緩和し, より一般的な知識を維持できる。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Unveiling the Tapestry: the Interplay of Generalization and Forgetting in Continual Learning [18.61040106667249]
AIでは、一般化とは、与えられたタスクに関連するアウト・オブ・ディストリビューション・データに対して、トレーニングされたデータ以外にうまく機能するモデルの能力を指す。
継続的な学習方法は、しばしば破滅的な忘れを軽減し、以前のタスクからの知識を確実に保持するメカニズムを含んでいる。
本稿では, 形状テクスチュア整合性規則化(STCR)と呼ばれる, 連続的な学習を支援する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T04:36:24Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Continual Learning for Text Classification with Information
Disentanglement Based Regularization [18.258948837964724]
テキスト分類に基づく連続学習のための情報分散に基づく正規化手法を提案する。
大規模ベンチマーク実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-12T14:17:43Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。