論文の概要: Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17279v1
- Date: Sat, 14 Jun 2025 04:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.302042
- Title: Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models
- Title(参考訳): ステップバイステップ推論攻撃:大規模言語モデルにおける'エラスド'知識の発見
- Authors: Yash Sinha, Manit Baser, Murari Mandal, Dinil Mon Divakaran, Mohan Kankanhalli,
- Abstract要約: 未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
- 参考スコア(独自算出の注目度): 9.719371187651591
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge erasure in large language models (LLMs) is important for ensuring compliance with data and AI regulations, safeguarding user privacy, mitigating bias, and misinformation. Existing unlearning methods aim to make the process of knowledge erasure more efficient and effective by removing specific knowledge while preserving overall model performance, especially for retained information. However, it has been observed that the unlearning techniques tend to suppress and leave the knowledge beneath the surface, thus making it retrievable with the right prompts. In this work, we demonstrate that \textit{step-by-step reasoning} can serve as a backdoor to recover this hidden information. We introduce a step-by-step reasoning-based black-box attack, Sleek, that systematically exposes unlearning failures. We employ a structured attack framework with three core components: (1) an adversarial prompt generation strategy leveraging step-by-step reasoning built from LLM-generated queries, (2) an attack mechanism that successfully recalls erased content, and exposes unfair suppression of knowledge intended for retention and (3) a categorization of prompts as direct, indirect, and implied, to identify which query types most effectively exploit unlearning weaknesses. Through extensive evaluations on four state-of-the-art unlearning techniques and two widely used LLMs, we show that existing approaches fail to ensure reliable knowledge removal. Of the generated adversarial prompts, 62.5% successfully retrieved forgotten Harry Potter facts from WHP-unlearned Llama, while 50% exposed unfair suppression of retained knowledge. Our work highlights the persistent risks of information leakage, emphasizing the need for more robust unlearning strategies for erasure.
- Abstract(参考訳): 大規模言語モデル(LLM)における知識の消去は、データやAI規制の遵守、ユーザのプライバシの保護、バイアスの緩和、誤った情報保護に重要である。
既存のアンラーニング手法は、特に保持された情報に対して、モデル性能を保ちながら、特定の知識を除去し、知識の消去のプロセスをより効率的かつ効果的にすることを目的としている。
しかし、未学習の手法は、その知識を表裏に抑え、残す傾向があるため、正しいプロンプトで検索可能であることが観察されている。
本研究では,この隠れた情報を復元するためのバックドアとして,‘textit{step-by-step reasoning} が機能することを実証する。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
我々は,(1)LLM生成クエリから構築されたステップバイステップの推論を活用する対角的プロンプト生成戦略,(2)削除されたコンテンツのリコールを成功させる攻撃機構,(3)直接的,間接的,暗黙的としてプロンプトの分類を不公平に抑制し,どのクエリタイプが未学習の弱点を最も効果的に活用するかを識別する。
最先端の4つの未学習技術と2つのLLMの広範な評価を通じて、既存のアプローチが信頼性の高い知識の除去に失敗していることを示す。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%が不公平な知識の抑制を暴露した。
我々の研究は、情報漏洩の持続的なリスクを強調し、消去のためのより堅牢な未学習戦略の必要性を強調している。
関連論文リスト
- Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃を受けると、いくつかの機械学習手法が失敗する可能性があることを示す。
アウトプットベース、ロジットベース、プローブ分析を用いて、未学習の知識がどの程度検索できるかを判断する。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [44.37155305736321]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Enhancing LLM Knowledge Learning through Generalization [73.16975077770765]
我々は,LLMが様々な言い換えの文脈に与えられた同じ事実的知識トークンを継続的に予測する能力は,質問応答によってその知識を抽出する能力と正の相関性を示す。
そこで本稿では,LLMの知識獲得能力を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。
知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。
未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文 参考訳(メタデータ) (2024-07-02T03:34:16Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching [67.11497198002165]
大規模言語モデル(LLM)は最新の情報の提供に苦慮することが多い。
既存のアプローチは、通常、新しいドキュメントのトレーニングを継続する。
効率的なヒューマンラーニングにおけるFeynman Techniqueの成功に感銘を受けて、セルフチューニングを紹介した。
論文 参考訳(メタデータ) (2024-06-10T14:42:20Z) - Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文 参考訳(メタデータ) (2024-02-15T16:28:34Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。