論文の概要: Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2510.15973v1
- Date: Sun, 12 Oct 2025 21:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.735893
- Title: Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts
- Title(参考訳): 大規模言語モデルにおける有効性を守る--人文・アルゴリズム的対人プロンプトに対する抵抗性の評価
- Authors: Tiarnaigh Downey-Webb, Olamide Jogunola, Oluwaseun Ajao,
- Abstract要約: 本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic security assessment of four prominent Large Language Models (LLMs) against diverse adversarial attack vectors. We evaluate Phi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, and GPT-4 across four distinct attack categories: human-written prompts, AutoDAN, Greedy Coordinate Gradient (GCG), and Tree-of-Attacks-with-pruning (TAP). Our comprehensive evaluation employs 1,200 carefully stratified prompts from the SALAD-Bench dataset, spanning six harm categories. Results demonstrate significant variations in model robustness, with Llama-2 achieving the highest overall security (3.4% average attack success rate) while Phi-2 exhibits the greatest vulnerability (7.0% average attack success rate). We identify critical transferability patterns where GCG and TAP attacks, though ineffective against their target model (Llama-2), achieve substantially higher success rates when transferred to other models (up to 17% for GPT-4). Statistical analysis using Friedman tests reveals significant differences in vulnerability across harm categories ($p < 0.001$), with malicious use prompts showing the highest attack success rates (10.71% average). Our findings contribute to understanding cross-model security vulnerabilities and provide actionable insights for developing targeted defense mechanisms
- Abstract(参考訳): 本稿では,多種多様な対角攻撃ベクトルに対して,LLM(Large Language Models)の系統的セキュリティ評価を行う。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
包括的評価では、SALAD-Benchデータセットから1200の慎重に階層化されたプロンプトを使用し、6つの有害カテゴリにまたがる。
Llama-2は全体のセキュリティ(平均攻撃成功率3.4%)を達成し、Phi-2は最大の脆弱性(平均攻撃成功率7.0%)を示した。
我々は,GCGおよびTAP攻撃が標的モデル(Llama-2)に対して有効ではないが,他のモデルに転送した場合(GPT-4では最大17%)に極めて高い成功率が得られる重要な伝達可能性パターンを同定した。
フリードマンテストを用いた統計的分析では、有害カテゴリ(p < 0.001$)間での脆弱性の顕著な違いが示され、悪意のある使用プロンプトは攻撃の成功率が最も高い(10.71%)。
本研究は, クロスモデルセキュリティ脆弱性の理解に寄与し, 標的防御機構の開発に有効な知見を提供する。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - The Resurgence of GCG Adversarial Attacks on Large Language Models [4.157278627741554]
本稿では,GCGとその変種であるTGCGを,オープンソースランドスケープ全体にわたって体系的に評価する。
攻撃の成功率はモデルのサイズによって減少し、複雑さが増すのを反映している。
コーディングプロンプトは 敵の安全プロンプトよりも 脆弱で 推論自体を 攻撃ベクトルとして利用できる
論文 参考訳(メタデータ) (2025-08-30T07:04:29Z) - When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents [1.7587442088965226]
LLMベースのコーディングエージェントは、急速にソフトウェア開発にデプロイされているが、その安全性への影響はよく分かっていない。
我々は,5つの最先端モデルにわたる12,000以上のアクションを解析し,自律型符号化エージェントの最初の系統的安全性評価を行った。
我々は,4つの主要な脆弱性を識別する高精度検出システムを開発した。
論文 参考訳(メタデータ) (2025-07-12T16:11:07Z) - Evaluating the Robustness of Adversarial Defenses in Malware Detection Systems [2.209921757303168]
本研究では, 連続摂動を二元的特徴空間に変換し, 高い攻撃成功と低摂動サイズを保ちながら, 連続摂動を2元的特徴空間に変換する手法を提案する。
第2に、最小限の機能変化で攻撃目標を達成するために設計された、バイナリドメインに対する新しい逆法を提案する。
Malscanデータセットの実験によると、Sigma-binaryは既存の攻撃より優れており、最先端の防御において重要な脆弱性を露呈している。
論文 参考訳(メタデータ) (2025-05-14T12:38:43Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - EaTVul: ChatGPT-based Evasion Attack Against Software Vulnerability Detection [19.885698402507145]
敵対的な例は、ディープニューラルネットワーク内の脆弱性を悪用することができる。
本研究は,攻撃成功率100%を達成できる敵対攻撃に対する深層学習モデルの感受性を示す。
論文 参考訳(メタデータ) (2024-07-27T09:04:54Z) - Preference Poisoning Attacks on Reward Model Learning [47.00395978031771]
ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。