論文の概要: The Limits of Obliviate: Evaluating Unlearning in LLMs via Stimulus-Knowledge Entanglement-Behavior Framework
- arxiv url: http://arxiv.org/abs/2510.25732v1
- Date: Wed, 29 Oct 2025 17:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.889531
- Title: The Limits of Obliviate: Evaluating Unlearning in LLMs via Stimulus-Knowledge Entanglement-Behavior Framework
- Title(参考訳): 公開の限界--Stimulus-Knowledge Entanglement-Behavior FrameworkによるLLMにおける未学習の評価
- Authors: Aakriti Shah, Thai Le,
- Abstract要約: 提案手法は,未学習の大規模言語モデルから現実的な知識を想起できるかどうかを考察する。
我々は,知識活性化パターンを定量化し,実感,非実感,幻覚を出力として評価するための絡み合い尺度を開発した。
- 参考スコア(独自算出の注目度): 10.710084443802897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning in large language models (LLMs) is crucial for managing sensitive data and correcting misinformation, yet evaluating its effectiveness remains an open problem. We investigate whether persuasive prompting can recall factual knowledge from deliberately unlearned LLMs across models ranging from 2.7B to 13B parameters (OPT-2.7B, LLaMA-2-7B, LLaMA-3.1-8B, LLaMA-2-13B). Drawing from ACT-R and Hebbian theory (spreading activation theories), as well as communication principles, we introduce Stimulus-Knowledge Entanglement-Behavior Framework (SKeB), which models information entanglement via domain graphs and tests whether factual recall in unlearned models is correlated with persuasive framing. We develop entanglement metrics to quantify knowledge activation patterns and evaluate factuality, non-factuality, and hallucination in outputs. Our results show persuasive prompts substantially enhance factual knowledge recall (14.8% baseline vs. 24.5% with authority framing), with effectiveness inversely correlated to model size (128% recovery in 2.7B vs. 15% in 13B). SKeB provides a foundation for assessing unlearning completeness, robustness, and overall behavior in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の未学習は、機密データを管理し、誤情報を修正するために重要であるが、その有効性を評価することは未解決の問題である。
本研究では,2.7Bから13Bパラメータ (OPT-2.7B, LLaMA-2-7B, LLaMA-3.1-8B, LLaMA-2-13B) のモデルにおいて,意図しないLLMから事実知識を想起できるかどうかを検討する。
ACT-Rとヘビアン理論(活性化理論)と通信原理から、ドメイングラフを介して情報の絡み合いをモデル化するStimulus-Knowledge Entanglement-Behavior Framework(SKeB)を導入し、未学習モデルにおける事実的リコールが説得的フレーミングと相関しているかどうかをテストする。
我々は,知識活性化パターンを定量化し,実感,非実感,幻覚を出力として評価するための絡み合い尺度を開発した。
以上の結果から, モデルサイズと逆相関(2.7Bでは128%, 13Bでは15%)で, 事実的知識リコール(14.8%, 24.5%)を大幅に向上させる可能性が示唆された。
SKeBは、LLMにおける未学習の完全性、堅牢性、全体的な振る舞いを評価する基盤を提供する。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels [72.3670919950349]
大規模言語モデル(LLM)は、事前訓練中にかなりの世界の知識を得る。
教師付き微調整(SFT)のようなポストトレーニング技術はこの知識変化の振る舞いを形作る。
LLaMA-2 と LLaMA-3 の 5 つの LLM を対象としたクローズドブック質問応答 (CBQA) の性能評価を行った。
論文 参考訳(メタデータ) (2025-09-20T09:40:32Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [46.653774740885275]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。
Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。
本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall [31.45796499298925]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
論文 参考訳(メタデータ) (2024-04-24T19:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。