論文の概要: Towards Evaluation for Real-World LLM Unlearning
- arxiv url: http://arxiv.org/abs/2508.01324v1
- Date: Sat, 02 Aug 2025 11:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.822149
- Title: Towards Evaluation for Real-World LLM Unlearning
- Title(参考訳): 実世界LLMアンラーニングの評価に向けて
- Authors: Ke Miao, Yuke Hu, Xiaochen Li, Wenjie Bao, Zhihao Liu, Zhan Qin, Kui Ren,
- Abstract要約: 分布補正に基づく未学習評価(DCUE)と呼ばれる新しい指標を提案する。
コアトークンを特定し、検証セットを使用して信頼性スコアの分布バイアスを修正する。
結果はコルモゴロフ=スミルノフ検定を用いて定量化される。
- 参考スコア(独自算出の注目度): 16.31710864838019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes the limitations of existing unlearning evaluation metrics in terms of practicality, exactness, and robustness in real-world LLM unlearning scenarios. To overcome these limitations, we propose a new metric called Distribution Correction-based Unlearning Evaluation (DCUE). It identifies core tokens and corrects distributional biases in their confidence scores using a validation set. The evaluation results are quantified using the Kolmogorov-Smirnov test. Experimental results demonstrate that DCUE overcomes the limitations of existing metrics, which also guides the design of more practical and reliable unlearning algorithms in the future.
- Abstract(参考訳): 本稿では,実世界のLLM未学習シナリオにおいて,既存の未学習評価指標の限界を実用性,正確性,堅牢性の観点から分析する。
これらの制約を克服するため、分布補正に基づく非学習評価(DCUE)と呼ばれる新しい指標を提案する。
コアトークンを特定し、検証セットを使用して信頼性スコアの分布バイアスを修正する。
評価結果はコルモゴロフ・スミルノフ試験を用いて定量化される。
実験の結果、DCUEは既存のメトリクスの限界を克服し、将来より実用的で信頼性の高い未学習アルゴリズムの設計をガイドすることを示した。
関連論文リスト
- OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。
評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。
今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文 参考訳(メタデータ) (2025-05-31T19:43:00Z) - Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs [29.764833226591012]
本稿では,大規模言語モデル(LLM)の検証と費用対効果評価フレームワークを提案する。
テストサンプル複雑性'を用いて、認定された評価に必要なテストポイント数を定量化し、テストサンプル複雑性の厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
論文 参考訳(メタデータ) (2025-05-02T17:05:01Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis [34.62178125699054]
UNCD (UNlearning Evaluation via Cognitive Diagnosis) は、LLMアンラーニングのきめ細かい評価のための新しいフレームワークである。
われわれのベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
論文 参考訳(メタデータ) (2025-02-19T06:56:59Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [11.609354498110358]
機械学習は、訓練されたモデルから特定のデータの影響を取り除こうとする。
本稿では,UA と MIA にまたがる誤分類データには,予測セットに基礎的真理ラベルがまだ含まれていないことを明らかにする。
本稿では,記憶品質をより確実に評価する共形予測に着想を得た2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2025-01-31T18:58:43Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。