論文の概要: Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness
- arxiv url: http://arxiv.org/abs/2506.05735v1
- Date: Fri, 06 Jun 2025 04:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.31685
- Title: Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness
- Title(参考訳): LLMは本当に忘れられるのか? 知識の相関と信頼度による未学習の評価
- Authors: Rongzhe Wei, Peizhi Niu, Hans Hao-Hsun Hsu, Ruihan Wu, Haoteng Yin, Mohsen Ghassemi, Yifan Li, Vamsi K. Potluru, Eli Chien, Kamalika Chaudhuri, Olgica Milenkovic, Pan Li,
- Abstract要約: 大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
- 参考スコア(独自算出の注目度): 44.37155305736321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning techniques aim to mitigate unintended memorization in large language models (LLMs). However, existing approaches predominantly focus on the explicit removal of isolated facts, often overlooking latent inferential dependencies and the non-deterministic nature of knowledge within LLMs. Consequently, facts presumed forgotten may persist implicitly through correlated information. To address these challenges, we propose a knowledge unlearning evaluation framework that more accurately captures the implicit structure of real-world knowledge by representing relevant factual contexts as knowledge graphs with associated confidence scores. We further develop an inference-based evaluation protocol leveraging powerful LLMs as judges; these judges reason over the extracted knowledge subgraph to determine unlearning success. Our LLM judges utilize carefully designed prompts and are calibrated against human evaluations to ensure their trustworthiness and stability. Extensive experiments on our newly constructed benchmark demonstrate that our framework provides a more realistic and rigorous assessment of unlearning performance. Moreover, our findings reveal that current evaluation strategies tend to overestimate unlearning effectiveness. Our code is publicly available at https://github.com/Graph-COM/Knowledge_Unlearning.git.
- Abstract(参考訳): 機械アンラーニング技術は、大規模言語モデル(LLM)における意図しない記憶を緩和することを目的としている。
しかし、既存のアプローチは主に孤立した事実を明示的に取り除くことに重点を置いており、しばしば潜在的推論依存やLLM内の知識の非決定論的性質を見落としている。
結果として、忘れられたと思われる事実は、相関情報を通じて暗黙的に持続する可能性がある。
これらの課題に対処するために,実世界の知識の暗黙構造をより正確に把握する知識未学習評価フレームワークを提案する。
我々はさらに、強力なLCMを裁判官として活用した推論に基づく評価プロトコルを開発し、抽出した知識のサブグラフを判断し、未学習の成功を判断する。
LLMの審査員は慎重に設計されたプロンプトを利用し、信頼性と安定性を確保するために人間の評価に対して校正されている。
新たに構築したベンチマークの大規模な実験は、我々のフレームワークがより現実的で厳密な未学習のパフォーマンス評価を提供することを示している。
さらに,現在の評価戦略は,未学習の有効性を過大評価する傾向にあることが明らかとなった。
私たちのコードはhttps://github.com/Graph-COM/Knowledge_Unlearning.gitで公開されています。
関連論文リスト
- Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。
自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。
本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations [22.011216436252845]
本稿では,大言語モデルの知識能力を探索するツールキットPertEvalを紹介する。
PertEvalは、静的ベンチマークからオンザフライテストサンプルを生成するために、人間のような再配置技術を採用している。
我々の発見は、より堅牢で真に理解できるLSMを前進させる洞察を与えてくれる。
論文 参考訳(メタデータ) (2024-05-30T06:38:32Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for
Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。
本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T16:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。