論文の概要: Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning
- arxiv url: http://arxiv.org/abs/2604.04255v1
- Date: Sun, 05 Apr 2026 20:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.007823
- Title: Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning
- Title(参考訳): 機械学習における大規模推論モデルの脆弱性発見に向けて
- Authors: Aobo Chen, Chenxu Zhao, Chenglin Miao, Mengdi Huai,
- Abstract要約: 大規模言語モデル(LRM)は明示的な多段階推論トレースを提供する。
アンラーニング技術は、トレーニングされたモデルから特定のデータの影響を、完全なリトレーニングなしで排除することを目的としている。
Unlearningは、新たなインタラクションサーフェスを公開することで、新たなセキュリティ脆弱性も導入する可能性がある。
- 参考スコア(独自算出の注目度): 28.94914260713979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) possess strong semantic understanding, driving significant progress in data mining applications. This is further enhanced by large reasoning models (LRMs), which provide explicit multi-step reasoning traces. On the other hand, the growing need for the right to be forgotten has driven the development of machine unlearning techniques, which aim to eliminate the influence of specific data from trained models without full retraining. However, unlearning may also introduce new security vulnerabilities by exposing additional interaction surfaces. Although many studies have investigated unlearning attacks, there is no prior work on LRMs. To bridge the gap, we first in this paper propose LRM unlearning attack that forces incorrect final answers while generating convincing but misleading reasoning traces. This objective is challenging due to non-differentiable logical constraints, weak optimization effect over long rationales, and discrete forget set selection. To overcome these challenges, we introduce a bi-level exact unlearning attack that incorporates a differentiable objective function, influential token alignment, and a relaxed indicator strategy. To demonstrate the effectiveness and generalizability of our attack, we also design novel optimization frameworks and conduct comprehensive experiments in both white-box and black-box settings, aiming to raise awareness of the emerging threats to LRM unlearning pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なセマンティック理解を持ち、データマイニングアプリケーションに大きな進歩をもたらした。
これは、大きな推論モデル(LRM)によってさらに強化され、明示的な多段階推論トレースを提供する。
一方、忘れられる権利の必要性が高まっているため、完全に再トレーニングすることなく、トレーニングされたモデルから特定のデータの影響を排除することを目的とした、機械学習技術の開発が進められている。
しかし、アンラーニングは、追加のインタラクションサーフェスを公開することによって、新たなセキュリティ脆弱性も導入する可能性がある。
多くの研究が未学習の攻撃について研究しているが、LEMに関する先行研究はない。
このギャップを埋めるために,我々はまずLRMアンラーニング攻撃を提案する。
この目的は、微分不可能な論理的制約、長い有理数に対する弱い最適化効果、離散的な忘れられた集合の選択によって困難である。
これらの課題を克服するために、異なる目的関数、影響力のあるトークンアライメント、緩和された指標戦略を組み込んだ、二段階の正確な未学習攻撃を導入する。
攻撃の有効性と一般化性を示すため、我々は新しい最適化フレームワークを設計し、ホワイトボックスとブラックボックスの両方で包括的な実験を行い、LRMアンラーニングパイプラインに対する新興脅威の認識を高めることを目的としている。
関連論文リスト
- AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [42.1825027925353]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。