論文の概要: Graceful Forgetting in Generative Language Models
- arxiv url: http://arxiv.org/abs/2505.19715v1
- Date: Mon, 26 May 2025 09:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.306459
- Title: Graceful Forgetting in Generative Language Models
- Title(参考訳): 生成言語モデルにおけるグレースフルフォーミング
- Authors: Chunyang Jiang, Chi-min Chan, Yiyang Cai, Yulong Liu, Wei Xue, Yike Guo,
- Abstract要約: 生成言語モデルにおける優雅な忘れ込みを実現するための新しいフレームワークであるLearning With Forgettingを提案する。
Fisher Information Matrixは、意図したパラメータ更新を重み付け、LWFは、忘れるタスクに関する自己生成知識を評価するために、信頼を忘れることを計算する。
実験により,事前学習した言語モデルでは,知識相互作用のメカニズムを徹底的に解明することは依然として困難であるが,優雅な忘れ込みの適用は微調整性能の向上に寄与することが示された。
- 参考スコア(独自算出の注目度): 19.413048064877824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the pretrain-finetune paradigm has become a cornerstone in various deep learning areas. While in general the pre-trained model would promote both effectiveness and efficiency of downstream tasks fine-tuning, studies have shown that not all knowledge acquired during pre-training is beneficial. Some of the knowledge may actually bring detrimental effects to the fine-tuning tasks, which is also known as negative transfer. To address this problem, graceful forgetting has emerged as a promising approach. The core principle of graceful forgetting is to enhance the learning plasticity of the target task by selectively discarding irrelevant knowledge. However, this approach remains underexplored in the context of generative language models, and it is often challenging to migrate existing forgetting algorithms to these models due to architecture incompatibility. To bridge this gap, in this paper we propose a novel framework, Learning With Forgetting (LWF), to achieve graceful forgetting in generative language models. With Fisher Information Matrix weighting the intended parameter updates, LWF computes forgetting confidence to evaluate self-generated knowledge regarding the forgetting task, and consequently, knowledge with high confidence is periodically unlearned during fine-tuning. Our experiments demonstrate that, although thoroughly uncovering the mechanisms of knowledge interaction remains challenging in pre-trained language models, applying graceful forgetting can contribute to enhanced fine-tuning performance.
- Abstract(参考訳): 近年,様々な深層学習分野において,プレトレイン-ファインチューンパラダイムが基盤となっている。
一般に、事前学習モデルでは、下流タスクの微調整の有効性と効率性の両方が促進されるが、事前学習中に得られるすべての知識が有益であるとは限らないことが研究で示されている。
知識のいくつかは、実際にはマイナス転移として知られる微調整タスクに有害な影響をもたらす可能性がある。
この問題に対処するため、優雅な忘れが有望なアプローチとして浮上した。
優雅な忘れ方の基本原理は、無関係な知識を選択的に捨てることにより、目標課題の学習可塑性を高めることである。
しかし、このアプローチは生成言語モデルという文脈では未解明であり、アーキテクチャの非互換性のため、既存の忘れるアルゴリズムをこれらのモデルに移行することはしばしば困難である。
このギャップを埋めるために,本稿では,生成言語モデルにおける優雅な忘れ方を実現するための新しいフレームワークであるLearning With Forgetting(LWF)を提案する。
目的のパラメータ更新を重み付けするFisher Information Matrixにより、LWFは、忘れるタスクに関する自己生成知識を評価するために、信頼を忘れることを計算する。
実験により,事前学習した言語モデルでは,知識相互作用のメカニズムを徹底的に解明することは依然として困難であるが,優雅な忘れ込みの適用は微調整性能の向上に寄与することが示された。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Preserving Commonsense Knowledge from Pre-trained Language Models via
Causal Inference [20.5696436171006]
現存する研究の多くは破滅的な忘れ物であり、訓練済みの知識を無差別に保持している。
我々は因果グラフに微調整を行い、破滅的な忘れ物が事前訓練されたデータから欠落した因果関係にあることを発見した。
実験では,6つのコモンセンスQAデータセットに対して,最先端の微調整手法より優れていた。
論文 参考訳(メタデータ) (2023-06-19T09:06:44Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。