論文の概要: Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis
- arxiv url: http://arxiv.org/abs/2502.13996v1
- Date: Wed, 19 Feb 2025 06:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:25.353176
- Title: Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis
- Title(参考訳): シングルバリューメトリックを超えて:認知診断によるLLMアンラーニングの評価と改善
- Authors: Yicheng Lang, Kehan Guo, Yue Huang, Yujun Zhou, Haomin Zhuang, Tianyu Yang, Yao Su, Xiangliang Zhang,
- Abstract要約: UNCD (UNlearning Evaluation via Cognitive Diagnosis) は、LLMアンラーニングのきめ細かい評価のための新しいフレームワークである。
われわれのベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
- 参考スコア(独自算出の注目度): 34.62178125699054
- License:
- Abstract: Due to the widespread use of LLMs and the rising critical ethical and safety concerns, LLM unlearning methods have been developed to remove harmful knowledge and undesirable capabilities. In this context, evaluations are mostly based on single-value metrics such as QA accuracy. However, these metrics often fail to capture the nuanced retention of harmful knowledge components, making it difficult to assess the true effectiveness of unlearning. To address this issue, we propose UNCD (UNlearning evaluation via Cognitive Diagnosis), a novel framework that leverages Cognitive Diagnosis Modeling for fine-grained evaluation of LLM unlearning. Our dedicated benchmark, UNCD-Cyber, provides a detailed assessment of the removal of dangerous capabilities. Moreover, we introduce UNCD-Agent, which refines unlearning by diagnosing knowledge remnants and generating targeted unlearning data. Extensive experiments across eight unlearning methods and two base models demonstrate that UNCD not only enhances evaluation but also effectively facilitates the removal of harmful LLM abilities.
- Abstract(参考訳): LLMの普及と、倫理的・安全上の懸念の高まりにより、LLMの非学習方法は有害な知識と望ましくない能力を取り除くために開発された。
この文脈では、評価は主にQAの精度のような単一の値のメトリクスに基づいている。
しかし、これらの指標は有害な知識コンポーネントのニュアンスな保持を捉えるのに失敗することが多く、未学習の真の有効性を評価することは困難である。
この問題に対処するために,認知診断モデリングを応用したUNCD(UNlearning evaluation via Cognitive Diagnosis)を提案する。
当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
さらに,知識残余を診断し,対象とする未学習データを生成することにより,未学習を洗練させるUNCD-Agentを導入する。
8つのアンラーニング法と2つのベースモデルにわたる大規模な実験により、UNCDは評価を高めるだけでなく、有害なLDM能力の除去を効果的に促進することを示した。
関連論文リスト
- Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Do LLMs estimate uncertainty well in instruction-following? [9.081508933326644]
大規模言語モデル(LLM)は、ユーザ指示に従うことができるため、さまざまなドメインにわたるパーソナルAIエージェントとして価値のあるものになり得る。
命令追従の文脈におけるLCMの不確実性推定能力の最初の体系的評価について述べる。
以上の結果から,既存の不確実性手法は,特にモデルが後続の命令で微妙な誤りを犯した場合に困難であることがわかった。
論文 参考訳(メタデータ) (2024-10-18T16:32:10Z) - Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。
既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文 参考訳(メタデータ) (2024-10-03T18:07:25Z) - Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning [42.38865072597821]
大規模言語モデル(LLM)は多用途であり、印象的な一般化能力を示している。
彼らは今でも推論ミスを示しており、しばしば知識不足から起因している。
LLMの知識不足を診断・治療するためのラベルフリーなカリキュラム意味学習フレームワーク(LaMer)を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:39:49Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。