論文の概要: Harry Potter is Still Here! Probing Knowledge Leakage in Targeted Unlearned Large Language Models via Automated Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2505.17160v1
- Date: Thu, 22 May 2025 14:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.622597
- Title: Harry Potter is Still Here! Probing Knowledge Leakage in Targeted Unlearned Large Language Models via Automated Adversarial Prompting
- Title(参考訳): ハリー・ポッターはいまだに存在する! 自動逆転法による未学習の大規模言語モデルにおける知識漏洩の探索
- Authors: Bang Trinh Tran To, Thai Le,
- Abstract要約: LURKは、敵の接尾辞によって学習されていないLLMの隠れた知識を探索するフレームワークである。
実験の結果,未学習と判断されたモデルでさえ,目標対向条件下での慣用的情報を漏洩させることができることがわかった。
LURKは、未学習アルゴリズムの堅牢性を評価するための、より厳格で診断的なツールを提供する。
- 参考スコア(独自算出の注目度): 9.250758784663411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents LURK (Latent UnleaRned Knowledge), a novel framework that probes for hidden retained knowledge in unlearned LLMs through adversarial suffix prompting. LURK automatically generates adversarial prompt suffixes designed to elicit residual knowledge about the Harry Potter domain, a commonly used benchmark for unlearning. Our experiments reveal that even models deemed successfully unlearned can leak idiosyncratic information under targeted adversarial conditions, highlighting critical limitations of current unlearning evaluation standards. By uncovering latent knowledge through indirect probing, LURK offers a more rigorous and diagnostic tool for assessing the robustness of unlearning algorithms. All code will be publicly available.
- Abstract(参考訳): この研究は、LURK(Latent UnleaRned Knowledge)という、敵対的な接尾辞を通じて未学習のLLMに隠された知識を探索する新しいフレームワークを提示する。
LURKは、アンラーニングの一般的なベンチマークであるHarry Potterドメインに関する残留知識を引き出すために設計された敵のプロンプト接尾辞を自動生成する。
実験の結果,未学習と判断されたモデルでさえ,対象とする対向条件下での慣用的情報を漏洩させ,現在の未学習評価基準の限界を浮き彫りにすることがわかった。
間接的な探索を通じて潜在知識を明らかにすることで、LURKは、未学習アルゴリズムの堅牢性を評価するためのより厳密で診断的なツールを提供する。
すべてのコードは公開されます。
関連論文リスト
- Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,事前学習したLLMを微調整し,文脈内における目標知識の学習を迅速に行えるようにする。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。
知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。
未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文 参考訳(メタデータ) (2024-07-02T03:34:16Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Has this Fact been Edited? Detecting Knowledge Edits in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Explore, Discover and Learn: Unsupervised Discovery of State-Covering
Skills [155.11646755470582]
情報理論的スキル発見の代替手法として,'Explore, Discover and Learn'(EDL)がある。
本稿では,EDLがカバレッジ問題を克服し,学習スキルの初期状態への依存を減らし,ユーザが学習すべき行動について事前定義できるようにするなど,大きなメリットがあることを示す。
論文 参考訳(メタデータ) (2020-02-10T10:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。