論文の概要: Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric
- arxiv url: http://arxiv.org/abs/2601.09624v1
- Date: Wed, 14 Jan 2026 16:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.475209
- Title: Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric
- Title(参考訳): 学習困難の理解に向けて--機械的視点と回路誘導困難度
- Authors: Jiali Cheng, Ziheng Chen, Chirag Agarwal, Hadi Amiri,
- Abstract要約: circuit-guided Unlearning Difficulty (CUD) は、回路レベルの信号を用いて各サンプルに連続的な難易度スコアを割り当てるメトリクスである。
難易度の機械的シグネチャを示す重要な回路レベルのパターンを同定する。
- 参考スコア(独自算出の注目度): 36.2724900971511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning is becoming essential for building trustworthy and compliant language models. Yet unlearning success varies considerably across individual samples: some are reliably erased, while others persist despite the same procedure. We argue that this disparity is not only a data-side phenomenon, but also reflects model-internal mechanisms that encode and protect memorized information. We study this problem from a mechanistic perspective based on model circuits--structured interaction pathways that govern how predictions are formed. We propose Circuit-guided Unlearning Difficulty (CUD), a {\em pre-unlearning} metric that assigns each sample a continuous difficulty score using circuit-level signals. Extensive experiments demonstrate that CUD reliably separates intrinsically easy and hard samples, and remains stable across unlearning methods. We identify key circuit-level patterns that reveal a mechanistic signature of difficulty: easy-to-unlearn samples are associated with shorter, shallower interactions concentrated in earlier-to-intermediate parts of the original model, whereas hard samples rely on longer and deeper pathways closer to late-stage computation. Compared to existing qualitative studies, CUD takes a first step toward a principled, fine-grained, and interpretable analysis of unlearning difficulty; and motivates the development of unlearning methods grounded in model mechanisms.
- Abstract(参考訳): マシンアンラーニングは、信頼できる、コンプライアンスのある言語モデルを構築するために欠かせないものになりつつある。
しかし、未学習の成功は個々のサンプルによって大きく異なる。
我々は、この格差はデータ側の現象であるだけでなく、記憶された情報をエンコードし保護するモデル内部機構を反映していると主張している。
本稿では, モデル回路に基づく力学的な観点から, 予測の仕組みを規定する構造的相互作用経路について検討する。
本稿では,回路レベルの信号を用いて各サンプルに連続的な難易度を割り当てる,回路誘導未学習難読度(CUD)尺度を提案する。
大規模な実験により、CUDは本質的に簡単で硬いサンプルを確実に分離し、未学習の手法で安定していることが示された。
簡単な非学習サンプルは、初期から中間部分に集中したより短く浅い相互作用に関連付けられているのに対し、ハードサンプルは後期の計算に近づいたより長く深い経路に依存している。
既存の定性的な研究と比較すると、CUDは、未学習の難しさの原則的、きめ細かな、解釈可能な分析に向けて第一歩を踏み出し、モデルメカニズムに根ざした未学習の手法の開発を動機付けている。
関連論文リスト
- Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities [15.783261732000883]
本稿では,Hardy-MER という,Hardness-Aware Dynamic Curriculum Learning フレームワークを提案する。
まず、各サンプルの硬度レベルを推定し、次に、トレーニング中の硬度レベルを戦略的に強調する。
ベンチマークデータセットの実験は、HARDY-MERが欠落したモダリティシナリオで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-09T03:10:56Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty [12.382999548648726]
既存の研究では、サンプル全体にわたって一様でない学習困難が想定されている。
本稿では,サンプルレベルの未学習難易度を定量化するためのメモリ除去困難度(mathrmMRD$)尺度を提案する。
また、既存の未学習アルゴリズムを最適化するために、$mathrmMRD$ベースの重み付きサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-04-09T07:48:10Z) - Instance-Level Difficulty: A Missing Perspective in Machine Unlearning [13.052520843129363]
完全インスタンスレベルのアンラーニング性能分析により,機械学習を困難にさせる難易度について検討する。
特に,データポイントの学習を困難にする4つの要因を要約する。
機械学習の研究は、未学習のインスタンスレベルの難しさに注意を払うべきだと我々は主張する。
論文 参考訳(メタデータ) (2024-10-03T23:41:42Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。