論文の概要: Stealth edits for provably fixing or attacking large language models
- arxiv url: http://arxiv.org/abs/2406.12670v1
- Date: Tue, 18 Jun 2024 14:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:28:51.142237
- Title: Stealth edits for provably fixing or attacking large language models
- Title(参考訳): 大規模言語モデルの修正や攻撃を確実にするためのステルス編集
- Authors: Oliver J. Sutton, Qinghua Zhou, Wei Wang, Desmond J. Higham, Alexander N. Gorban, Alexander Bastounis, Ivan Y. Tyukin,
- Abstract要約: 我々は,大規模言語モデルを編集するための新しい手法と理論基盤を明らかにする。
モデル編集可能性の評価や、悪意のある攻撃に対する感受性を明らかにするために、新しい理論をどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 76.53356051271014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We reveal new methods and the theoretical foundations of techniques for editing large language models. We also show how the new theory can be used to assess the editability of models and to expose their susceptibility to previously unknown malicious attacks. Our theoretical approach shows that a single metric (a specific measure of the intrinsic dimensionality of the model's features) is fundamental to predicting the success of popular editing approaches, and reveals new bridges between disparate families of editing methods. We collectively refer to these approaches as stealth editing methods, because they aim to directly and inexpensively update a model's weights to correct the model's responses to known hallucinating prompts without otherwise affecting the model's behaviour, without requiring retraining. By carefully applying the insight gleaned from our theoretical investigation, we are able to introduce a new network block -- named a jet-pack block -- which is optimised for highly selective model editing, uses only standard network operations, and can be inserted into existing networks. The intrinsic dimensionality metric also determines the vulnerability of a language model to a stealth attack: a small change to a model's weights which changes its response to a single attacker-chosen prompt. Stealth attacks do not require access to or knowledge of the model's training data, therefore representing a potent yet previously unrecognised threat to redistributed foundation models. They are computationally simple enough to be implemented in malware in many cases. Extensive experimental results illustrate and support the method and its theoretical underpinnings. Demos and source code for editing language models are available at https://github.com/qinghua-zhou/stealth-edits.
- Abstract(参考訳): 我々は,大規模言語モデルを編集するための新しい手法と理論基盤を明らかにする。
また,新たな理論を用いてモデルの編集可能性を評価し,これまで未知の悪質な攻撃に対する感受性を明らかにする方法を示す。
我々の理論的アプローチは、一般的な編集手法の成功を予測するために、1つのメートル法(モデルの特徴の固有次元の特定尺度)が基本であることを示し、異なる編集手法のファミリー間の新しいブリッジを明らかにする。
これらの手法をステルス編集手法と呼ぶのは、モデルの重みを直接的かつ安価に更新して、モデルの再訓練を必要とせずに、既知の幻覚的プロンプトに対するモデル応答を補正することを目的としているからである。
理論的な調査から得られた洞察を慎重に適用することで、高度に選択的なモデル編集のために最適化された、既存のネットワークに挿入可能な、新しいネットワークブロック、Jet-packブロックを導入することができます。
内在的次元距離は、言語モデルがステルス攻撃に対する脆弱性を決定づける:モデルの重みへの小さな変更で、単一のアタッカー・チョーゼンプロンプトに対する応答が変化する。
ステルス攻撃は、モデルのトレーニングデータへのアクセスや知識を必要とせず、したがって、再配布された基礎モデルに対する強力な、かつこれまで認識されていなかった脅威を表している。
それらは、多くの場合、マルウェアに実装できるほど単純である。
大規模な実験結果から、この方法とその理論的基盤が示され、支持されている。
言語モデルを編集するためのデモとソースコードはhttps://github.com/qinghua-zhou/stealth-editsで入手できる。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Trojan Model Detection Using Activation Optimization [15.032071953322594]
機械学習モデルのトレーニングは非常に費用がかからない。
事前訓練されたモデルはトロイア攻撃に感染することがある。
本稿では,トロイの木馬モデルを検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-06-08T02:17:29Z) - A Plot is Worth a Thousand Words: Model Information Stealing Attacks via
Scientific Plots [14.998272283348152]
敵がターゲットのMLモデルの出力を利用してモデルの情報を盗むことはよく知られている。
我々は、モデル情報盗難攻撃、すなわちモデルの科学的プロットのための新しいサイドチャネルを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:57:34Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Target Model Agnostic Adversarial Attacks with Query Budgets on Language
Understanding Models [14.738950386902518]
攻撃対象モデルに対して高い攻撃伝達性を有する目標モデル逆攻撃法を提案する。
実験により,本手法は,限られたクエリ予算の制約の下で,高度に伝達可能な文を生成することを示す。
論文 参考訳(メタデータ) (2021-06-13T17:18:19Z) - Query-free Black-box Adversarial Attacks on Graphs [37.88689315688314]
そこで,攻撃者は対象モデルについて知識がなく,クエリーアクセスも行わないグラフに対して,クエリフリーなブラックボックス攻撃を提案する。
対象モデルに対するフリップリンクの影響をスペクトル変化によって定量化できることを証明し,固有値摂動理論を用いて近似する。
その単純さとスケーラビリティのため、提案モデルは様々なグラフベースモデルで一般的なだけでなく、異なる知識レベルがアクセス可能であれば容易に拡張できる。
論文 参考訳(メタデータ) (2020-12-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。