論文の概要: CoSPED: Consistent Soft Prompt Targeted Data Extraction and Defense
- arxiv url: http://arxiv.org/abs/2510.11137v1
- Date: Mon, 13 Oct 2025 08:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.265555
- Title: CoSPED: Consistent Soft Prompt Targeted Data Extraction and Defense
- Title(参考訳): CoSPED: Consistent Soft Prompt Targeted Data extract and Defense
- Authors: Yang Zhuochen, Fok Kar Wai, Thing Vrizlynn,
- Abstract要約: 本稿では,Consistent Soft Promptを対象とするデータ抽出・防衛のためのCoSPEDを提案する。
動的損失、追加損失、共通損失、自己整合復号戦略など、革新的なコンポーネントをいくつか紹介する。
抽出機構の解析により,ソフト・プロンプトによる攻撃に対する効果的な軽減戦略を直接的に提供することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have gained widespread attention recently, but their potential security vulnerabilities, especially privacy leakage, are also becoming apparent. To test and evaluate for data extraction risks in LLM, we proposed CoSPED, short for Consistent Soft Prompt targeted data Extraction and Defense. We introduce several innovative components, including Dynamic Loss, Additive Loss, Common Loss, and Self Consistency Decoding Strategy, and tested to enhance the consistency of the soft prompt tuning process. Through extensive experimentation with various combinations, we achieved an extraction rate of 65.2% at a 50-token prefix comparison. Our comparisons of CoSPED with other reference works confirm our superior extraction rates. We evaluate CoSPED on more scenarios, achieving Pythia model extraction rate of 51.7% and introducing cross-model comparison. Finally, we explore defense through Rank-One Model Editing and achieve a reduction in the extraction rate to 1.6%, which proves that our analysis of extraction mechanisms can directly inform effective mitigation strategies against soft prompt-based attacks.
- Abstract(参考訳): 大規模な言語モデルは近年広く注目を集めているが、その潜在的なセキュリティ脆弱性、特にプライバシーの漏洩も明らかになってきている。
LLMにおけるデータ抽出リスクの検証と評価を行うため,我々は,Consistent Soft Promptをターゲットにしたデータ抽出と防衛のためのCoSPEDを提案する。
我々は,動的損失,付加損失,共通損失,自己整合性復号化戦略など,いくつかの革新的なコンポーネントを導入し,ソフトプロンプトチューニングプロセスの整合性を高めることを試みた。
各種組み合わせによる広範囲な実験により,50-tokenプレフィックス比較で65.2%の抽出率を得た。
CoSPEDと他の参考研究との比較により, 優れた抽出率が確認された。
我々は、より多くのシナリオでCoSPEDを評価し、Pythiaモデル抽出率51.7%を達成し、クロスモデル比較を導入する。
最後に、ランクワンモデル編集による防御を探求し、抽出率を1.6%に下げることにより、抽出機構の解析により、ソフト・プロンプトに基づく攻撃に対する効果的な軽減戦略を直接的に情報提供できることを証明した。
関連論文リスト
- Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - CopyrightShield: Enhancing Diffusion Model Security against Copyright Infringement Attacks [61.06621533874629]
拡散モデルは、攻撃者が戦略的に修正された非侵害画像をトレーニングセットに注入する著作権侵害攻撃に弱い。
まず、上記の攻撃に対して防御するための防御フレームワーク、PhiliptyShieldを提案する。
実験により,PhiliptyShieldは2つの攻撃シナリオで有毒なサンプル検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - Stealthy Backdoor Attack via Confidence-driven Sampling [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Enhancing Adversarial Robustness via Score-Based Optimization [22.87882885963586]
敵対的攻撃は、わずかな摂動を導入することによって、ディープニューラルネットワーク分類器を誤認する可能性がある。
ScoreOptと呼ばれる新しい対向防御方式を導入し、テスト時に対向サンプルを最適化する。
実験の結果,本手法は性能とロバスト性の両方において,既存の敵防御よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T03:59:42Z) - FireBERT: Hardening BERT-based classifiers against adversarial attack [0.5156484100374058]
FireBERTは、TextFoolerスタイルの単語摂動に対して強化された3つの概念的NLP分類器のセットである。
本稿では, 合成データ生成装置を併用して, 製造前の95%の対向試料を保護し, 高い効率で処理する手法を提案する。
本研究では, BERT ベースのモデルに対して, 正規ベンチマークの精度を著しく低下させることなく, 敵攻撃時の精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-08-10T15:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。