論文の概要: Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2510.00125v1
- Date: Tue, 30 Sep 2025 18:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.184164
- Title: Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning
- Title(参考訳): 直接トークン最適化:大規模言語モデル学習への自己完結型アプローチ
- Authors: Hong kyu Lee, Ruixuan Liu, Li Xiong,
- Abstract要約: マシン・アンラーニング(英: Machine unlearning)は、トレーニングデータのサブセット(ターゲットセット)の影響を、完全なリトレーニングなしでモデルから排除する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
我々は,大規模言語モデルに対する自己完結型非学習手法であるダイレクトトークン最適化(DTO)を提案する。
- 参考スコア(独自算出の注目度): 9.42887167048224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine unlearning is an emerging technique that removes the influence of a subset of training data (forget set) from a model without full retraining, with applications including privacy protection, content moderation, and model correction. The key challenge lies in ensuring that the model completely forgets the knowledge of the forget set without compromising its overall utility. Existing unlearning methods for large language models (LLMs) often utilize auxiliary language models, retain datasets, or even commercial AI services for effective unlearning and maintaining the model utility. However, dependence on these external resources is often impractical and could potentially introduce additional privacy risks. In this work, we propose direct token optimization (DTO), a novel self-contained unlearning approach for LLMs that directly optimizes the token level objectives and eliminates the need for external resources. Given a sequence to unlearn, we identify two categories of tokens: target tokens, which capture critical knowledge for unlearning, and the remaining non-target tokens, which are crucial for maintaining the model utility. The former are used to optimize the unlearning objective, while the latter serve to preserve the model's performance. The experimental results show that the proposed DTO achieves up to 16.8$\times$ improvement in forget quality on several benchmark datasets than the latest baselines while maintaining a comparable level of model utility.
- Abstract(参考訳): 機械学習は、プライバシ保護、コンテンツモデレーション、モデル修正を含む、完全なリトレーニングのないモデルからトレーニングデータのサブセット(ターゲットセット)の影響を除去する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
大規模言語モデル(LLM)の既存の未学習メソッドは、補助的な言語モデルを利用したり、データセットを保持したり、商用のAIサービスを効果的に非学習し、モデルユーティリティを維持したりする。
しかし、これらの外部リソースへの依存はしばしば非現実的であり、追加のプライバシーリスクをもたらす可能性がある。
本研究では,トークンレベルの目的を直接最適化し,外部リソースの必要性を解消する,自己完結型LLMのための非学習手法であるダイレクトトークン最適化(DTO)を提案する。
未学習における重要な知識をキャプチャするターゲットトークンと、モデルユーティリティの維持に不可欠である残りの非ターゲットトークンの2つのカテゴリを識別する。
前者は未学習の目的を最適化するために使用され、後者はモデルのパフォーマンスを維持するのに役立ちます。
実験の結果、提案したDTOは、モデルユーティリティの同等レベルを維持しながら、最新のベースラインよりも、いくつかのベンチマークデータセットの品質を忘れることが最大16.8$\times$改善されることが示されている。
関連論文リスト
- BLUR: A Bi-Level Optimization Approach for LLM Unlearning [105.98410883830596]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法
SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。
実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-11T16:28:18Z) - Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models [2.0962367975513496]
機械学習は、特定のトレーニングデータの影響をモデルから効率的に排除することを目的としている。
既存の未学習手法は, 無視集合に関連する応答を抑制するために, 負のフィードバックのみに頼っている。
本稿では,AltPO(Alternate Preference Optimization)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:05:07Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport [37.172662930947446]
大規模言語モデルは不注意にも、ユーザに対してプライベートで機密性の高い情報を開示する。
最適なトランスポートベースのアンラーニング手法であるOpt-Outを導入する。
また、最初のエンティティレベルの未学習データセットも提示する。
論文 参考訳(メタデータ) (2024-06-18T06:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。