論文の概要: A methodological analysis of prompt perturbations and their effect on attack success rates
- arxiv url: http://arxiv.org/abs/2511.10686v1
- Date: Tue, 11 Nov 2025 19:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.264987
- Title: A methodological analysis of prompt perturbations and their effect on attack success rates
- Title(参考訳): 急激な摂動の方法論的解析と攻撃成功率への影響
- Authors: Tiago Machado, Maysa Malfiza Garcia de Macedo, Rogerio Abreu de Paula, Marcelo Carpinette Grave, Aminat Adebiyi, Luan Soares de Souza, Enrico Santarelli, Claudio Pinhanez,
- Abstract要約: この研究は、異なるLarge Language Models (LLM)アライメントメソッドが、攻撃に対するモデルの応答にどのように影響するかを調査することを目的としている。
我々は,最も一般的なアライメント手法,すなわち Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Reinforcement Learning with Human Feedback (RLHF) に基づいて,オープンソースモデルを選択した。
- 参考スコア(独自算出の注目度): 0.5387033080274478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to investigate how different Large Language Models (LLMs) alignment methods affect the models' responses to prompt attacks. We selected open source models based on the most common alignment methods, namely, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Reinforcement Learning with Human Feedback (RLHF). We conducted a systematic analysis using statistical methods to verify how sensitive the Attack Success Rate (ASR) is when we apply variations to prompts designed to elicit inappropriate content from LLMs. Our results show that even small prompt modifications can significantly change the Attack Success Rate (ASR) according to the statistical tests we run, making the models more or less susceptible to types of attack. Critically, our results demonstrate that running existing 'attack benchmarks' alone may not be sufficient to elicit all possible vulnerabilities of both models and alignment methods. This paper thus contributes to ongoing efforts on model attack evaluation by means of systematic and statistically-based analyses of the different alignment methods and how sensitive their ASR is to prompt variation.
- Abstract(参考訳): この研究は、異なるLarge Language Models (LLM)アライメントメソッドが、攻撃に対するモデルの応答にどのように影響するかを調査することを目的としている。
我々は,最も一般的なアライメント手法,すなわち Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Reinforcement Learning with Human Feedback (RLHF) に基づいて,オープンソースモデルを選択した。
我々は,LSMから不適切なコンテンツを引き出すよう設計したプロンプトに変種を適用する際に,ASR(Attack Success Rate)がどの程度敏感であるかを検証するために,統計的手法を用いて系統解析を行った。
以上の結果から,小規模な急進的な修正であっても,攻撃成功率(ASR)が統計的に大きく変化する可能性が示唆された。
重要な結果として、既存の'アタックベンチマーク'だけでは、モデルとアライメントメソッドの両方の潜在的な脆弱性をすべて引き起こすには不十分であることを示した。
本稿では,各アライメント手法の系統的および統計的解析によるモデルアタック評価の取り組みと,それらのASRが変動の促進にどれほど敏感であるかを考察する。
関連論文リスト
- Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Phrase-Level Adversarial Training for Mitigating Bias in Neural Network-based Automatic Essay Scoring [0.0]
本稿では,AESモデルのバイアスとロバスト性に対処する逆エッセイセットを生成するための,モデルに依存しないフレーズレベル手法を提案する。
実験の結果, 提案手法は, 逆例やシナリオの存在下で, AESモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-07T11:22:35Z) - Simple Perturbations Subvert Ethereum Phishing Transactions Detection: An Empirical Analysis [12.607077453567594]
精度,精度,リコール,F1スコアなどのモデル性能指標に対する各種敵攻撃戦略の影響について検討する。
モデルロバスト性を高めるために, 対戦訓練や特徴選択の強化など, 様々な緩和策の有効性を検討する。
論文 参考訳(メタデータ) (2024-08-06T20:40:20Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。