論文の概要: Not All Tokens Are Meant to Be Forgotten
- arxiv url: http://arxiv.org/abs/2506.03142v1
- Date: Tue, 03 Jun 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.988304
- Title: Not All Tokens Are Meant to Be Forgotten
- Title(参考訳): すべてのトークンが忘れられるわけではない
- Authors: Xiangyu Zhou, Yao Qiang, Saleh Zare Zade, Douglas Zytko, Prashant Khanduri, Dongxiao Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、優れた人間レベルの言語理解、推論、意思決定能力を示す。
LLMは、プライベートや著作権のあるコンテンツなどの望ましくない情報を記憶し、プライバシーや法的懸念を生じさせる傾向がある。
- 参考スコア(独自算出の注目度): 13.060635265281864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), pre-trained on massive text corpora, exhibit remarkable human-level language understanding, reasoning, and decision-making abilities. However, they tend to memorize unwanted information, such as private or copyrighted content, raising significant privacy and legal concerns. Unlearning has emerged as a promising solution, but existing methods face a significant challenge of over-forgetting. This issue arises because they indiscriminately suppress the generation of all the tokens in forget samples, leading to a substantial loss of model utility. To overcome this challenge, we introduce the Targeted Information Forgetting (TIF) framework, which consists of (1) a flexible targeted information identifier designed to differentiate between unwanted words (UW) and general words (GW) in the forget samples, and (2) a novel Targeted Preference Optimization approach that leverages Logit Preference Loss to unlearn unwanted information associated with UW and Preservation Loss to retain general information in GW, effectively improving the unlearning process while mitigating utility degradation. Extensive experiments on the TOFU and MUSE benchmarks demonstrate that the proposed TIF framework enhances unlearning effectiveness while preserving model utility and achieving state-of-the-art results.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大量のテキストコーパスで事前訓練され、優れた人間レベルの言語理解、推論、意思決定能力を示す。
しかし、プライベートや著作権のあるコンテンツなどの望ましくない情報を記憶し、プライバシーや法的懸念を生じさせる傾向がある。
アンラーニングは有望なソリューションとして現れてきたが、既存の手法は過剰な鍛造という重大な課題に直面している。
この問題は、サンプルを忘れる際の全てのトークンの生成を無差別に抑制し、モデルユーティリティーが著しく失われることから生じる。
この課題を克服するために,(1)未読語(UW)と一般語(GW)を区別するフレキシブルなターゲット情報識別子を備えたTIF(Targeted Information Forgetting)フレームワークを導入し,(2)未読語(UW)と一般語(GW)を識別する。
TOFUおよびMUSEベンチマークの大規模な実験により、提案したTIFフレームワークは、モデルユーティリティを保ちながら、未学習の有効性を高め、最先端の結果を達成することが示されている。
関連論文リスト
- Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。
未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。
これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文 参考訳(メタデータ) (2024-12-09T20:18:43Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。