Fugu-MT 論文翻訳(概要): KlF: Knowledge Localization and Fusion for Language Model Continual Learning

論文の概要: KlF: Knowledge Localization and Fusion for Language Model Continual Learning

arxiv url: http://arxiv.org/abs/2408.05200v3
Date: Wed, 18 Dec 2024 12:07:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.847012
Title: KlF: Knowledge Localization and Fusion for Language Model Continual Learning
Title（参考訳）: KlF: 言語モデル継続学習のための知識ローカライゼーションと融合
Authors: Yujie Feng, Xu Chu, Yongxin Xu, Zexin Lu, Bo Liu, Philip S. Yu, Xiao-Ming Wu,
Abstract要約: 大規模言語モデル(LLM)は、リトレーニングなしで動的現実世界のシナリオに適応することができる。この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。既存のアプローチでは、タスク固有の知識を得るために、複数のパラメータ効率の微調整(PEFT)ブロックを利用するのが一般的である。
参考スコア（独自算出の注目度）: 41.28933724210434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language model continual learning (CL) has recently attracted significant interest for its ability to adapt large language models (LLMs) to dynamic real-world scenarios without retraining. A major challenge in this domain is catastrophic forgetting, where models lose previously acquired knowledge upon learning new tasks. Existing approaches commonly utilize multiple parameter-efficient fine-tuning (PEFT) blocks to acquire task-specific knowledge, yet these methods are inefficient and fail to leverage potential knowledge transfer across tasks. In this paper, we introduce a novel CL framework for language models, named Knowledge Localization and Fusion (KlF), which boosts knowledge transfer without depending on memory replay. KlF initially segregates the model into 'skill units' based on parameter dependencies, allowing for more precise control. Subsequently, it employs a novel group-wise knowledge localization technique to ascertain the importance distribution of skill units for a new task. By comparing this importance distribution with those from previous tasks, we implement a fine-grained knowledge fusion strategy that retains task-specific knowledge, thereby preventing forgetting, and updates task-shared knowledge, which facilitates bi-directional knowledge transfer. As a result, KlF achieves an optimal balance between retaining prior knowledge and excelling in new tasks. KlF also demonstrates strong generalizability, making it suitable for various base models and adaptable to PEFT methods like LoRA. Furthermore, it offers notable extensibility, supporting enhancements through integration with memory replay techniques. Comprehensive experiments conducted on two CL benchmarks, involving models ranging from 220M to 7B parameters, affirm the effectiveness of KlF and its variants across different settings.
Abstract（参考訳）: 言語モデル継続学習(CL)は、大規模な言語モデル(LLM)を、リトレーニングなしで動的現実のシナリオに適応できる能力に対して、近年大きな関心を集めている。この領域における大きな課題は、モデルが新しいタスクを学ぶ際に獲得した知識を失う、破滅的な忘れ事である。既存のアプローチでは、複数のパラメータ効率の細かい調整(PEFT)ブロックを使用してタスク固有の知識を取得するが、これらの手法は非効率であり、タスク間の潜在的な知識伝達を利用できない。本稿では,知識局所化と融合(KlF)という言語モデルのための新しいCLフレームワークを提案する。 KlFは当初、パラメータ依存に基づいてモデルを"スキルユニット"に分離し、より正確な制御を可能にする。その後、新しい課題に対するスキルユニットの重要性の分布を確認するために、グループ単位の知識ローカライズ技術を用いる。この重要度分布を従来の課題と比較することにより,タスク固有の知識を保持し,忘れないようにし,双方向の知識伝達を容易にするタスク共有知識を更新する,きめ細かい知識融合戦略を実現する。その結果、KlFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。 KlFは強力な一般化可能性を示し、様々なベースモデルに適合し、LoRAのようなPEFTメソッドに適応できる。さらに、メモリリプレイ技術との統合による拡張をサポートすることで、顕著な拡張性を提供する。 220Mから7Bパラメータのモデルを含む2つのCLベンチマークで包括的な実験を行い、KlFとその変種の有効性を異なる設定で確認した。

関連論文リスト

Modular Memory is the Key to Continual Learning Agents [100.09688599754465]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文参考訳（メタデータ） (2026-03-02T11:40:05Z)
Mixtures of SubExperts for Large Language Continual Learning [6.425296129700846]
タスクの連続ストリームに大規模言語モデルを適用することは、決定的だが挑戦的な取り組みである。 1組のPEFTパラメータを新しいタスクに再利用すると、しばしば以前の知識を壊滅的に忘れてしまう。本稿では,最小限の忘れ込みと効率のよい拡張性を実現するための,新しい連続学習フレームワークであるTextitMixtures of SubExperts (MoSEs)を提案する。
論文参考訳（メタデータ） (2025-11-09T05:44:45Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Recurrent Knowledge Identification and Fusion for Language Model Continual Learning [41.901501650712234]
Recurrent-KIF は Recurrent Knowledge Identification and Fusion のためのCLフレームワークである。人間の連続学習にインスパイアされたRecurrent-KIFは、内部ループを使用し、新しいタスクに迅速に適応する。新しい知識と歴史的知識の融合を世界規模で管理する外ループ。
論文参考訳（メタデータ） (2025-02-22T05:37:27Z)
DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文参考訳（メタデータ） (2025-02-17T06:35:42Z)
KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA) 本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-08T21:26:22Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
TaSL: Continual Dialog State Tracking via Task Skill Localization and Consolidation [14.533890076297393]
タスクスキルのローカライゼーションと統合のための新しいフレームワークであるTaSLを提案する。 TaSLは、タスク特化領域とタスク共有領域をピンポイントする、新しいグループワイド技術を使用している。結果として、TaSLは以前の知識の保存と新しいタスクの達成のバランスをとることになる。
論文参考訳（メタデータ） (2024-08-19T10:01:28Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-17T13:04:35Z)
SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文参考訳（メタデータ） (2024-01-16T11:45:03Z)
LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (2024-01-04T18:53:01Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)
Concept-aware Training Improves In-context Learning Ability of Language Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。テキスト内情報をよりよく活用できるLMを作成する手法を提案する。概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文参考訳（メタデータ） (2023-05-23T07:44:52Z)
Learning an evolved mixture model for task-free continual learning [11.540150938141034]
タスク自由連続学習(TFCL)では,非定常データストリーム上で,明示的なタスク情報を持たないモデルを訓練する。メモリ過負荷を回避するため,記憶されているサンプルを選択的に削除する2つの単純なドロップアウト機構を導入する。
論文参考訳（メタデータ） (2022-07-11T16:01:27Z)
A Framework of Meta Functional Learning for Regularising Knowledge Transfer [89.74127682599898]
本研究では,データ豊富なタスクから一般化可能な関数型モデルをメタ学習することで,メタ関数型学習(MFL)の新たなフレームワークを提案する。 MFLは、限定ラベル付きデータに対する機能訓練が学習すべきより差別的な機能を促進することにより、異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。
論文参考訳（メタデータ） (2022-03-28T15:24:09Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。