論文の概要: FGGM: Fisher-Guided Gradient Masking for Continual Learning
- arxiv url: http://arxiv.org/abs/2601.18261v1
- Date: Mon, 26 Jan 2026 08:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.742082
- Title: FGGM: Fisher-Guided Gradient Masking for Continual Learning
- Title(参考訳): FGGM:連続学習のための釣りガイド型グラディエントマスキング
- Authors: Chao-Hong Tan, Qian Chen, Wen Wang, Yukun Ma, Chong Zhang, Chong Deng, Qinglin Zhang, Xiangang Li, Jieping Ye,
- Abstract要約: 破滅的な忘れ物は、大きな言語モデルの継続的な学習を損なう。
我々は、対角的なフィッシャー情報を用いて、更新のためのパラメータを戦略的に選択することでこれを緩和するフレームワークであるFisher-Guided Gradient Masking (FGGM)を提案する。
- 参考スコア(独自算出の注目度): 57.56585138260662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting impairs the continuous learning of large language models. We propose Fisher-Guided Gradient Masking (FGGM), a framework that mitigates this by strategically selecting parameters for updates using diagonal Fisher Information. FGGM dynamically generates binary masks with adaptive thresholds, preserving critical parameters to balance stability and plasticity without requiring historical data. Unlike magnitude-based methods such as MIGU, our approach offers a mathematically principled parameter importance estimation. On the TRACE benchmark, FGGM shows a 9.6% relative improvement in retaining general capabilities over supervised fine-tuning (SFT) and a 4.4% improvement over MIGU on TRACE tasks. Additional analysis on code generation tasks confirms FGGM's superior performance and reduced forgetting, establishing it as an effective solution.
- Abstract(参考訳): 破滅的な忘れ物は、大きな言語モデルの継続的な学習を損なう。
我々は、対角的なフィッシャー情報を用いて、更新のためのパラメータを戦略的に選択することでこれを緩和するフレームワークであるFisher-Guided Gradient Masking (FGGM)を提案する。
FGGMは適応しきい値のバイナリマスクを動的に生成し、過去のデータを必要としない安定性と可塑性のバランスを取るために重要なパラメータを保存する。
MIGUのような等級に基づく手法とは異なり、本手法は数学的に原理化されたパラメータ重要度推定を提供する。
TRACEベンチマークでは、FGGMは教師付き微調整(SFT)よりも9.6%向上し、TRACEタスクではMIGUよりも4.4%改善した。
コード生成タスクに関するさらなる分析は、FGGMの優れたパフォーマンスを確認し、忘れを減らし、効果的なソリューションとして確立する。
関連論文リスト
- GaLLoP: Gradient-based Sparse Learning on Low-Magnitude Parameters [20.34415141254838]
GaLLoP: 低緯度パラメータによる勾配に基づくスパース学習。
本稿では,GaLLoP: Gradient-based Sparse Learning on Low-Magnitude Parametersを提案する。
論文 参考訳(メタデータ) (2025-10-22T17:11:49Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - An Efficient Machine Learning Framework for Forest Height Estimation from Multi-Polarimetric Multi-Baseline SAR data [2.395410408500006]
本稿では,LiDARプロファイルを用いた多チャンネルSAR処理をGT(GT)として用いた森林高度推定フレームワークFGumpを紹介する。
精度と計算効率のバランスを保ち、手動設計の特徴の限られたセットを使い、重い前処理を避ける(例えば、キャリブレーションや量子化)。
実験の結果,FGumpはAIベースおよび古典的手法よりも優れており,精度が向上し,トレーニングや推論時間も著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:07:23Z) - FisherTune: Fisher-Guided Robust Tuning of Vision Foundation Models for Domain Generalized Segmentation [65.93276461982093]
既存のアプローチでは、パラメータを選択的に微調整するか、VFMを凍結し、アダプタのみを更新する。
我々は、Domain-Related Fisher Information Matrix (DR-FIM) によって誘導される堅牢な微調整法である textbfFisherTune を提案する。
DR-FIMはタスクやドメイン間でパラメータの感度を測定し、汎用性を維持し、DGSS適応性を高めるための選択的更新を可能にする。
論文 参考訳(メタデータ) (2025-03-23T04:47:15Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。