論文の概要: MAAT: Multi-phase Adapter-Aware Targeted Unlearning
- arxiv url: http://arxiv.org/abs/2605.30514v1
- Date: Thu, 28 May 2026 19:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.202629
- Title: MAAT: Multi-phase Adapter-Aware Targeted Unlearning
- Title(参考訳): MAAT:マルチフェーズ適応型未学習
- Authors: Suryash Yagnik, Shubham Gaur, Saksham Thakur, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: We present 5WBENCH, a balanceed 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why)。
既存のベースラインでは,Why-type 質問に対する高い忘れ込みと高い保持が同時に達成されないことを示す。
我々は,LoRAアダプタの重みをベースとした3相フレームワークであるMAATについて,勾配投影型昇降法,SVD位数決定法,タスクベクトル否定法,ハイブリッドKL隠れ状態維持法を併用した。
- 参考スコア(独自算出の注目度): 17.60633763194266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning evaluation is structurally skewed: Why-type questions, which probe causal and relational knowledge, comprise less than 0.06% of CounterFact, 0.6% of ZSRE, and less than 1.3% of TOFU, MUSE, and WMDP-Cyber. This near-zero representation means that methods that fail on causal knowledge can score highly in aggregate, and this failure is undetectable without balanced evaluation. We present 5WBENCH, a balanced 5,000-sample benchmark with 1,000 examples per 5W category (Who, What, When, Where, Why), making causal unlearning failures quantifiable for the first time. Using 5WBENCH, we show that no existing baseline simultaneously achieves high forgetting and high retention on Why-type questions: aggressive forgetting degrades retained knowledge, while conservative methods fail to forget causal facts. Why-type difficulty stems from multi-hop reasoning chains (44% of Why entries vs. less than or equal to 2% for others) and gradient dilution over 40.1-token answer spans. We present MAAT (Multi-phase Adapter-Aware Targeted Unlearning), a three-phase framework operating on LoRA adapter weights, combining gradient-projected ascent, SVD rank-dimension pruning, task vector negation, and hybrid KL-hidden-state retain repair. MAAT is the first method to simultaneously achieve high forgetting and high retention on Why-type causal knowledge, reaching a new operating point on the forget-retain Pareto frontier. We make our code publicly available.
- Abstract(参考訳): 因果関係知識を探索する理由型質問は、CounterFactの0.06%未満、ZSREの0.6%、TOFU、MUSE、WMDP-Cyberの1.3%未満である。
このほぼゼロの表現は、因果知識で失敗するメソッドが集合的に高いスコアを得ることができ、この失敗はバランスの取れた評価なしでは検出できないことを意味する。
5Wカテゴリあたり1,000例(Who, What, When, Where, Why)のバランスのとれた5,000サンプルのベンチマークである5WBENCHを紹介し、因果未学習の失敗を初めて定量化する。
5WBENCHを用いることで,既存のベースラインが高い忘れと高い保持を同時に達成しないことが示される: 積極的忘れは知識を損なうが,保守的手法は因果事実を忘れない。
Why-typeの難易度は、マルチホップ推論連鎖(Why entry vs. less than 2% for others)と40.1-tokenの解答に対する勾配の希釈に起因している。
我々は,LoRAアダプタの重みをベースとした3相フレームワークであるMAAT(Multi-phase Adapter-Aware Targeted Unlearning)を提案する。
MAATは、Why型因果的知識の高い忘れ込みと高い保持を同時に達成し、Paretoフロンティアの新たな操作点に到達するための最初の方法である。
コードを公開しています。
関連論文リスト
- Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - When the Model Said 'No Comment', We Knew Helpfulness Was Dead, Honesty Was Alive, and Safety Was Terrified [19.134202394422285]
大規模言語モデル(LLM)は、人的価値に応じて、有用で、無害で、誠実(HHH)でなければならない。
既存の作業では、SFT(Supervised Fine-Tuning)とMoE(Mixture-of-Experts)を使用してLCMを調整している。
破滅的な忘れ込みを軽減し、推論信頼性を向上させる2段階フレームワークであるAlignXを提案する。
論文 参考訳(メタデータ) (2026-02-07T05:52:57Z) - Failure Modes in Multi-Hop QA: The Weakest Link Law and the Recognition Bottleneck [38.430205063059724]
本稿では,MFAI(Multi-Focus Attention Instruction)を導入した。
システム2推論を利用して、必要な情報を効果的に見つけ、統合する「思考」モデルを実証する。
論文 参考訳(メタデータ) (2026-01-18T17:16:04Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。
DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。
このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T17:57:33Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets in
Semi-supervised Object Detection [28.40887130075552]
擬似ターゲットは正確な検出器の訓練を損なう。
生徒のトレーニングにノイズを注入し、過度な過度な問題を引き起こす。
不整合を低減するために,ConsistentTeacherと呼ばれる体系的ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-04T10:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。