論文の概要: Effective Skill Unlearning through Intervention and Abstention
- arxiv url: http://arxiv.org/abs/2503.21730v1
- Date: Thu, 27 Mar 2025 17:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:26.133922
- Title: Effective Skill Unlearning through Intervention and Abstention
- Title(参考訳): 介入と回避による効果的なスキル・アンラーニング
- Authors: Yongce Li, Chung-En Sun, Tsui-Wei Weng,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著なスキルを誇示している。
LLMのための2つの軽量無訓練機械スキルアンラーニング技術を導入する。
本研究では,7言語にわたる算数解法,Pythonコーディング,理解能力について検討した。
- 参考スコア(独自算出の注目度): 11.453164927352615
- License:
- Abstract: Large language Models (LLMs) have demonstrated remarkable skills across various domains. Understanding the mechanisms behind their abilities and implementing controls over them is becoming increasingly important for developing better models. In this paper, we focus on skill unlearning in LLMs, specifically unlearning a particular skill while retaining their overall capabilities. We introduce two lightweight, training-free machine skill unlearning techniques for LLMs. First, we observe that the pre-activation distribution of neurons in each Feed-Forward Layer (FFL) differs when the model demonstrates different skills. Additionally, we find that queries triggering the same skill cluster within the FFL key space and can be separated from other queries using a hypercube. Based on these observations, we propose two lightweight, training-free skill unlearning methods via \textit{intervention} and \textit{abstention} respectively: \texttt{Neuron Adjust} and \texttt{Key Space Detection}. We evaluate our methods on unlearning math-solving, Python-coding, and comprehension skills across seven different languages. The results demonstrate their strong unlearning capabilities for the designated skills. Specifically, \texttt{Key Space Detection} achieves over 80\% relative performance drop on the forgetting skill and less than 10\% relative performance drop on other skills and the model's general knowledge (MMLU) for most unlearning tasks. Our code is available at https://github.com/Trustworthy-ML-Lab/effective_skill_unlearning
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著なスキルを誇示している。
それらの能力の背後にあるメカニズムを理解し、それに対するコントロールを実装することは、よりよいモデルを開発する上でますます重要になっています。
本稿では,LLMにおけるスキル・アンラーニング,特にその能力を維持しつつ,特定のスキルをアンラーニングすることに焦点を当てる。
LLMのための2つの軽量無訓練機械スキルアンラーニング技術を導入する。
まず、各フィードフォワード層(FFL)におけるニューロンの事前活性化分布が、モデルが異なるスキルを示すときに異なることを観察する。
さらに、FFLキー空間内で同じスキルクラスタを起動するクエリが、ハイパーキューブを使用して他のクエリと分離できることが分かりました。
そこで本研究では,これらの観測結果に基づいて,‘texttt{intervention} と \textit{abstention} という2つのライトウェイトな非学習手法を提案する。
本研究では,7言語にわたる算数解法,Pythonコーディング,理解能力について検討した。
その結果, 特定スキルの学習能力は向上した。
具体的には、‘texttt{Key Space Detection} は、忘れるスキルに対して80%以上の相対的なパフォーマンス低下を達成し、他のスキルに対して10%以下の相対的なパフォーマンス低下と、ほとんどの未学習タスクに対するモデルの一般知識(MMLU)を達成する。
私たちのコードはhttps://github.com/Trustworthy-ML-Lab/ Effective_skill_unlearningで利用可能です。
関連論文リスト
- Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering [44.008094698200026]
本稿では,外部知識ソースを統合することでMLLMの適応性を高める新しい手法を提案する。
提案するモデルであるReflectiVA(ReflectiVA)では,反射トークンを用いて外部知識の必要性を動的に判定する。
これにより、MLLMは外部知識が不要なタスクにおいて、レイテンシとパフォーマンスを保ちながら、外部知識を管理することができる。
論文 参考訳(メタデータ) (2024-11-25T19:01:03Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - SkillNet-X: A Multilingual Multitask Model with Sparsely Activated
Skills [51.74947795895178]
本稿では,SkillNet-Xという多言語マルチタスクモデルを提案する。
いくつかの言語固有のスキルとタスク固有のスキルを定義し、それぞれがスキルモジュールに対応する。
我々はSkillNet-Xを4言語で11の自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-28T12:53:30Z) - Learning without Forgetting for Vision-Language Models [86.53237963364754]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - One Model, Multiple Tasks: Pathways for Natural Language Understanding [34.58880663537492]
本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
論文 参考訳(メタデータ) (2022-03-07T11:48:09Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Skillearn: Machine Learning Inspired by Humans' Learning Skills [15.125072827275766]
私たちは、機械の学習を助けるために人間の学習スキルを借りることができるかどうかを調べることに興味があります。
具体的には、これらのスキルを形式化し、より良い機械学習(ML)モデルのトレーニングに活用することを目指しています。
この目標を達成するために、人間の学習スキルを数学的に表現する原則的な方法を提供する一般的なフレームワークであるSkillearnを開発した。
2つのケーススタディでは、Skillearnを使用して人間の2つの学習スキルを形式化します。テストをパスして学習をインターリーブし、形式化されたスキルを使用して神経アーキテクチャ検索を改善します。
論文 参考訳(メタデータ) (2020-12-09T04:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。