論文の概要: Parameter-Efficient Token Embedding Editing for Clinical Class-Level Unlearning
- arxiv url: http://arxiv.org/abs/2603.19302v1
- Date: Wed, 11 Mar 2026 15:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.868837
- Title: Parameter-Efficient Token Embedding Editing for Clinical Class-Level Unlearning
- Title(参考訳): 臨床レベルアンラーニングのためのパラメータ効率の良いToken Embedding Editing
- Authors: Iyad Ait Hou, Shrenik Borad, Harsh Sharma, Pooja Srinivasan, Rebecca Hwa, Aya Zirikly,
- Abstract要約: Sparse Token Embedding Unlearning (STEU)を導入する。
MIMIC-IV、MIMIC-III、eICUの実験では、STEUは目標クラスを継続的に抑制し、維持されたタスク性能を保っている。
これらの結果から, より深いエンコーダ表現を変更することなく, 少ない埋め込み編集により, 目標とした行動学習を実現することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 3.1246274408347756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning is increasingly important for clinical language models, where privacy regulations and institutional policies may require removing sensitive information from deployed systems without retraining from scratch. In practice, deletion requests must balance effective forgetting of targeted information with preservation of model utility and minimal parameter modification. We introduce Sparse Token Embedding Unlearning (STEU), a parameter-efficient method for behavioral class-level unlearning that updates only PMI-selected token embeddings together with a small classifier head while keeping all encoder layers frozen. Across experiments on MIMIC-IV, MIMIC-III, and eICU using BioClinicalBERT, BERT-base, and DistilBERT, STEU consistently suppresses the target class while largely preserving retained task performance. In the primary MIMIC-IV setting, STEU achieves near-complete forgetting (forget F1 = 0.0004) while maintaining competitive retained utility (retain avg F1 = 0.4766) after modifying only 0.19\% of model parameters. These results suggest that targeted behavioral unlearning can be achieved through sparse embedding edits without modifying deeper encoder representations.
- Abstract(参考訳): プライバシ規制と制度上のポリシーは、スクラッチからリトレーニングすることなく、デプロイされたシステムから機密情報を除去する必要がある可能性がある。
実際には、削除要求は、ターゲット情報の効果的な忘れ忘れと、モデルユーティリティの保存と最小限のパラメータ修正のバランスをとる必要がある。
Sparse Token Embedding Unlearning (STEU)は、PMI選択トークン埋め込みのみを小さな分類器ヘッドと共に更新し、すべてのエンコーダ層を凍結させながら更新する、行動クラスレベルのアンラーニングのためのパラメータ効率のよい手法である。
MIMIC-IV, MIMIC-III, eICUをBioClinicalBERT, BERT-base, DistilBERTを用いて実験した結果,STEUはタスク性能を保ちながら常に目標クラスを抑えることができた。
第一のMIMIC-IV設定では、STEUはモデルパラメータの 0.19 % しか変更せず、競争力のある保持ユーティリティ(avg F1 = 0.4766)を維持しながら、ほぼ完全な忘れ(F1 = 0.0004)を達成する。
これらの結果から, より深いエンコーダ表現を変更することなく, 少ない埋め込み編集により, 目標となる行動学習を実現することが可能であることが示唆された。
関連論文リスト
- SALMUBench: A Benchmark for Sensitive Association-Level Multimodal Unlearning [1.9342545005503784]
SALMUBench (Sensitive Association-Level Multimodal Unlearning, SALMUBench) は、60Kのペルソナ属性アソシエーションの合成データセット上に構築されたベンチマークである。
アンラーニング効果を分離するためには、どちらも同じ400Mペアレザーブベースでゼロからトレーニングされる。
構造化されたホールドアウト・セット(ホールドアウト・アイデンティティ、ホールドアウト・アソシエーション)を用いて、未学習の有効性と副作用を正確に測定する新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-03-27T11:33:59Z) - Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。
CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文 参考訳(メタデータ) (2025-09-17T07:12:35Z) - LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - Forget-MI: Machine Unlearning for Forgetting Multimodal Information in Healthcare Settings [5.200386658850142]
Forget-MIはマルチモーダル医療データのための新しい機械学習手法である。
テストデータセットのパフォーマンス、テストデータセットのパフォーマンス、およびメンバーシップ推論攻撃(MIA)を用いて結果を評価する。
提案手法はMIAを0.202削減し,AUCとF1のスコアを0.221と0.305に下げる。
論文 参考訳(メタデータ) (2025-06-29T08:53:23Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。