論文の概要: SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation
- arxiv url: http://arxiv.org/abs/2504.12996v1
- Date: Thu, 17 Apr 2025 15:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:53.700498
- Title: SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation
- Title(参考訳): SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge isolation (英語)
- Authors: Saransh Agrawal, Kuan-Hao Huang,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
- 参考スコア(独自算出の注目度): 12.838593066237452
- License:
- Abstract: Large language models (LLMs) frequently memorize sensitive information during training, posing risks when deploying publicly accessible models. Current machine unlearning methods struggle to selectively remove specific data associations without degrading overall model capabilities. This paper presents our solution to SemEval-2025 Task 4 on targeted unlearning, which introduces a two-stage methodology that combines causal mediation analysis with layer-specific optimization. Through systematic causal tracing experiments on OLMo architectures (1B and 7B parameters), we identify the critical role of the first few transformer layers (layers 0-5) in storing subject-attribute associations within MLP modules. Building on this insight, we develop a constrained optimization approach that freezes upper layers while applying a novel joint loss function to lower layers-simultaneously maximizing forget set loss via output token cross-entropy penalties and minimizing retain set deviation through adaptive regularization. Our method achieves 2nd place in the 1B model track, demonstrating strong task performance while maintaining 88% of baseline MMLU accuracy. These results establish causal-informed layer optimization as a promising paradigm for efficient, precise unlearning in LLMs, offering a significant step forward in addressing data privacy concerns in AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニング中に機密情報を頻繁に記憶し、公開可能なモデルをデプロイする際のリスクを生じさせる。
現在の機械学習手法では、モデル全体の能力を低下させることなく、特定のデータアソシエーションを選択的に除去することが困難である。
本稿では,セムエスバル-2025タスク4を対象未学習に適用し,因果媒介分析と層固有の最適化を組み合わせた2段階の方法論を提案する。
OLMo アーキテクチャ (1B と 7B のパラメータ) の系統的因果追跡実験により,MLP モジュール内の主成分-属性関係の保存において,最初の少数の変圧器層 (層 0-5 ) が重要な役割を担っていることを明らかにした。
この知見に基づいて、我々は、新しい継手損失関数を下層に適用しながら上層を凍結する制約付き最適化手法を開発し、同時に出力トークンクロスエントロピーペナルティによる忘れセット損失を最大化し、適応正則化による保持セット偏差を最小限にする。
提案手法は,ベースラインMMLU精度の88%を維持しつつ,高いタスク性能を示した。
これらの結果は、LLMにおける効率的で正確なアンラーニングのための有望なパラダイムとして因果インフォームド層最適化を確立し、AIシステムにおけるデータのプライバシ問題に対処するための大きな一歩を提供する。
関連論文リスト
- How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。
これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。
本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T13:54:53Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Learning to Unlearn for Robust Machine Unlearning [6.488418950340473]
学習過程を最適化する新しいLTU(Learning-to-Unlearn)フレームワークを提案する。
LTUは、モデルが一般化可能な知識を効果的に保存することを容易にするメタ最適化スキームを含んでいる。
また、記憶と忘れのための最適化トラジェクトリを整列するグラディエント調和戦略も導入する。
論文 参考訳(メタデータ) (2024-07-15T07:36:00Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。