論文の概要: Less is More: Geometric Unlearning for LLMs with Minimal Data Disclosure
- arxiv url: http://arxiv.org/abs/2605.01735v1
- Date: Sun, 03 May 2026 06:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.91297
- Title: Less is More: Geometric Unlearning for LLMs with Minimal Data Disclosure
- Title(参考訳): 少人数:最小データ開示によるLLMのための幾何学的アンラーニング
- Authors: Chenchen Tan, Xinghao Li, Shujie Cui, Youyang Qu, Cunjian Chen, Longxiang Gao,
- Abstract要約: Geometric Unlearning (GU) は、オリジナルのトレーニングコーパスにアクセスすることなく、モデルの迅速な計画状態を直接操作する。
GUは、小さな安全な参照プロンプトから所望の安全行動のコンパクトで低ランクな幾何学を蒸留する。
合成非ターゲットアンカーの教師蒸留レギュレータは、さらに横方向のドリフトを減少させる。
- 参考スコア(独自算出の注目度): 10.0091317316944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in real-world systems, they must support post-hoc removal of specific content to meet privacy and governance requirements. This motivates selective unlearning, which suppresses information about a particular entity or topic while preserving the LLM's general utility. However, most existing LLM unlearning methods require access to the original training corpus and rely on output-level refusal tuning or broad gradient updates, creating a tension among unlearning strength, non-target preservation, and data availability. We propose Geometric Unlearning (GU), an approach that operates directly on the model's prompt-time planning states without access to the original training corpus. GU distills a compact, low-rank geometry of desired safe behavior from a small set of safe reference prompts, and uses lightweight anchor-in-context synthetic prompts to trigger localized, projection-based alignment of hidden planning representations to this safe geometry. A teacher-distillation regularizer on synthetic non-target anchors further reduces collateral drift. Across privacy-oriented unlearning benchmarks (ToFU and UnlearnPII), GU achieves strong target suppression with minimal impact on non-target performance, demonstrating that effective unlearning can be achieved with minimal synthetic data.
- Abstract(参考訳): 大きな言語モデル(LLM)が現実世界のシステムにますますデプロイされるにつれて、プライバシとガバナンスの要件を満たすために、特定のコンテンツのポストホック削除をサポートする必要があります。
これは選択的アンラーニングを動機付け、LLMの汎用性を維持しながら、特定のエンティティやトピックに関する情報を抑圧する。
しかし、既存のLLMアンラーニング手法の多くは、元のトレーニングコーパスへのアクセスを必要とし、出力レベルのリフレクションチューニングや広範な勾配更新に依存し、未学習の強度、非ターゲット保存、データ可用性の間に緊張を生じさせる。
提案するGeometric Unlearning (GU) は,モデルの即時計画状態を直接操作し,元の学習コーパスにアクセスできないアプローチである。
GUは、少数の安全な参照プロンプトから所望の安全行動のコンパクトで低ランクな幾何学を蒸留し、軽量なアンカー・イン・コンテクスト合成プロンプトを使用して、隠れた計画表現の局所的、投影的アライメントをこの安全な幾何学に誘導する。
合成非ターゲットアンカーの教師蒸留レギュレータは、さらに横方向のドリフトを減少させる。
プライバシ指向のアンラーニングベンチマーク(ToFUとUnlearnPII)全体を通じて、GUは、ターゲット外のパフォーマンスに最小限の影響を伴って、強力なターゲット抑制を実現し、最小の合成データで効果的なアンラーニングが達成可能であることを実証している。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning [15.58340591381191]
大規模言語モデル(LLM)の学習は、プライベートデータ保護と有害な知識の除去に不可欠である。
既存のアプローチのほとんどは、未学習の効率と一般的な言語能力のバランスをとるために微調整に依存している。
本稿では,これらの制限を克服するために,Dutture-Reasoning Augmented Generation (DRAGON)を提案する。
論文 参考訳(メタデータ) (2025-11-08T01:13:28Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [17.83305806604326]
GUARDは、データ属性を通じて学習と保持をガイドするフレームワークである。
適応的で一様でないアンラーニングウェイトをサンプルに割り当て、逆にプロキシ属性スコアに比例する。
我々はGUARDが従来の手法に匹敵するメトリクスを忘れずに保持を大幅に改善する厳密な理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-12T17:49:09Z) - FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。