論文の概要: Reverse-Engineering Model Editing on Language Models
- arxiv url: http://arxiv.org/abs/2602.10134v1
- Date: Sat, 07 Feb 2026 08:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.159112
- Title: Reverse-Engineering Model Editing on Language Models
- Title(参考訳): 言語モデルを用いたリバースエンジニアリングモデル編集
- Authors: Zhiyu Sun, Minrui Luo, Yu Wang, Zhili Chen, Tianxing He,
- Abstract要約: textitKSTER (textbfKeytextbfSpaceReconstextbfTruction-then-textbfEntropytextbfReduction) という2段階のリバースエンジニアリング攻撃を提案する。
我々の攻撃は、高い成功率で編集されたデータを復元することができる。
- 参考スコア(独自算出の注目度): 13.281350510944383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are pretrained on corpora containing trillions of tokens and, therefore, inevitably memorize sensitive information. Locate-then-edit methods, as a mainstream paradigm of model editing, offer a promising solution by modifying model parameters without retraining. However, in this work, we reveal a critical vulnerability of this paradigm: the parameter updates inadvertently serve as a side channel, enabling attackers to recover the edited data. We propose a two-stage reverse-engineering attack named \textit{KSTER} (\textbf{K}ey\textbf{S}paceRecons\textbf{T}ruction-then-\textbf{E}ntropy\textbf{R}eduction) that leverages the low-rank structure of these updates. First, we theoretically show that the row space of the update matrix encodes a ``fingerprint" of the edited subjects, enabling accurate subject recovery via spectral analysis. Second, we introduce an entropy-based prompt recovery attack that reconstructs the semantic context of the edit. Extensive experiments on multiple LLMs demonstrate that our attacks can recover edited data with high success rates. Furthermore, we propose \textit{subspace camouflage}, a defense strategy that obfuscates the update fingerprint with semantic decoys. This approach effectively mitigates reconstruction risks without compromising editing utility. Our code is available at https://github.com/reanatom/EditingAtk.git.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数兆のトークンを含むコーパスで事前訓練され、必然的に機密情報を記憶する。
Locate-then-editメソッドは、モデル編集の主流パラダイムとして、モデルパラメータを再トレーニングせずに修正することで、有望なソリューションを提供する。
しかし,本研究では,パラメータ更新が必然的にサイドチャネルとして機能し,攻撃者が編集したデータを復元できるという,このパラダイムの重大な脆弱性を明らかにする。
本稿では,これらの更新の低ランク構造を利用する2段階のリバースエンジニアリングアタックである‘textit{KSTER}(\textbf{K}ey\textbf{S}paceRecons\textbf{T}ruction-then-\textbf{E}ntropy\textbf{R}eduction)を提案する。
まず、更新行列の行空間が編集対象の「フィンガープリント」を符号化し、スペクトル分析による正確な被写体復元を可能にすることを理論的に示す。
第2に、編集の意味的コンテキストを再構築するエントロピーベースのプロンプトリカバリ攻撃を導入する。
複数のLSMに対する大規模な実験により、我々の攻撃は高い成功率で編集データを復元できることを示した。
さらに,更新指紋とセマンティックデコイを混同する防衛戦略である「textit{subspace camouflage}」を提案する。
このアプローチは、編集ユーティリティを損なうことなく、再構築リスクを効果的に軽減する。
私たちのコードはhttps://github.com/reanatom/EditingAtk.git.comで利用可能です。
関連論文リスト
- Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering [16.56389670983349]
本稿では,視覚的に理解できないが意味論的にターゲットされた方法で文書コンテンツを偽造することを目的とした,新たな攻撃シナリオを提案する。
我々は、異なる攻撃者の目標に合わせて、敵に偽造された文書を生成できる特殊な攻撃アルゴリズムを開発した。
本研究は,現在のDocVQAシステムにおける重大な脆弱性を浮き彫りにして,より堅牢なディフェンスの開発を求めるものである。
論文 参考訳(メタデータ) (2025-12-04T08:15:57Z) - Information Leakage of Sentence Embeddings via Generative Embedding Inversion Attacks [1.6427658855248815]
本研究では,様々なニューラル文埋め込みモデルにまたがってGEIAの結果を再現する。
本稿では,GEIA で提案されている攻撃者のアーキテクチャを変更することなく,シンプルかつ効果的な手法を提案する。
本研究の結果から, 文の埋め込み作成に使用する人気モデルの事前学習知識に関連する有意義な情報を, 相手側が回収できることが示唆された。
論文 参考訳(メタデータ) (2025-04-23T10:50:23Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。