論文の概要: Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation
- arxiv url: http://arxiv.org/abs/2604.15482v1
- Date: Thu, 16 Apr 2026 19:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.629766
- Title: Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation
- Title(参考訳): 統一ドメイン表現と双方向ロジット蒸留による多目的LLMアンラーニングの調和
- Authors: Yisheng Zhong, Sijia Liu, Zhuangdi Zhu,
- Abstract要約: 大規模言語モデル(LLM)のアンラーニングは、モデルから有害またはプライバシをリードする情報を除去するために不可欠である。
既存の未学習の手法は主にこれらの目標の限られたサブセットに焦点を当てている。
複数の未学習目標を調和させる新しい多目的学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.723777730116831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) unlearning is crucial for removing hazardous or privacy-leaking information from the model. Practical LLM unlearning demands satisfying multiple challenging objectives simultaneously: removing undesirable knowledge, preserving general utility, avoiding over-refusal of neighboring concepts, and, crucially, ensuring robustness against adversarial probing attacks. However, existing unlearning methods primarily focus on a limited subset of these goals, typically unlearning efficacy and utility preservation while overlooking robustness and boundary behaviors. Naively extending these methods to multi-objective settings may lead to unlearning task interference. We propose a novel multi-objective unlearning framework that harmonizes multiple unlearning objectives through a data and optimization co-design: We standardize training corpora into a unified data representation to reduce the domain gap, and then introduce a bidirectional distillation method that simultaneously elicits desired behavior from a context-instructed teacher while suppressing undesirable behavior in the student model. Theoretical and empirical analyses show that our method aligns domain distributions and converts seemingly irrelevant unlearning tasks into cooperative optimization. Evaluation demonstrates state-of-the-art performance, which enables balanced and reliable unlearning across diverse, challenging requirements.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、モデルから有害またはプライバシをリードする情報を除去するために不可欠である。
現実的なLLMアンラーニングは、望ましくない知識を除去し、汎用性を保ち、近隣の概念の過剰な拒絶を回避し、そして重要なことに、敵の探究攻撃に対する堅牢性を確保するという、複数の困難な目標を同時に満たすことを要求する。
しかし、既存の未学習手法は主にこれらの目標の限られたサブセット(通常、堅牢性や境界性を見越しながら、未学習の有効性と実用性を保存すること)に焦点を当てている。
これらのメソッドを多目的設定にネイティブに拡張することは、未学習のタスク干渉につながる可能性がある。
データと最適化の共設計により、複数の未学習目標を調和させる新しい多目的学習フレームワークを提案する。我々は、コーパスを統一されたデータ表現に標準化し、ドメインギャップを減らすとともに、学生モデルにおける望ましくない振る舞いを抑えながら、コンテキスト指示された教師から望ましい振る舞いを同時に引き出す双方向蒸留手法を導入する。
理論的および経験的分析により,本手法は領域分布の整合性を示し,非学習課題の非学習課題を協調最適化に変換する。
評価は最先端のパフォーマンスを示し、多様で困難な要件をまたいだバランスの取れた信頼性の高いアンラーニングを可能にする。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Hierarchical Federated Unlearning for Large Language Models [5.406594712642111]
大きな言語モデル(LLM)は、現実のアプリケーションにますます統合され、プライバシやセキュリティ、望ましくない知識を取り除く必要性への懸念が高まっている。
スケーラブルでプライバシーを保護できるLLMのためのフェデレーション・アンラーニング・アプローチを提案する。
本手法は,タスク固有のアダプタ学習を通じて学習と保持を分離し,競合する目的を緩和するために階層的なマージ戦略を採用する。
論文 参考訳(メタデータ) (2025-10-19T04:24:51Z) - LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics [10.638045151201084]
本稿では,近年のステートフル・アンラーニング法12の原則的分類について述べる。
未学習効果(UE)、実用性維持(UT)、堅牢性(Rob)の評価を再考する。
分析の結果,Multiple-choice question (MCQ) の精度に支配される現在の評価は,狭い視点しか示さないことがわかった。
論文 参考訳(メタデータ) (2025-10-08T23:47:05Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。