論文の概要: The Resurgence of GCG Adversarial Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00391v1
- Date: Sat, 30 Aug 2025 07:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.21228
- Title: The Resurgence of GCG Adversarial Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルにおけるGCG対応攻撃の復活
- Authors: Yuting Tan, Xuying Li, Zhuo Li, Huizhen Shu, Peikang Hu,
- Abstract要約: 本稿では,GCGとその変種であるTGCGを,オープンソースランドスケープ全体にわたって体系的に評価する。
攻撃の成功率はモデルのサイズによって減少し、複雑さが増すのを反映している。
コーディングプロンプトは 敵の安全プロンプトよりも 脆弱で 推論自体を 攻撃ベクトルとして利用できる
- 参考スコア(独自算出の注目度): 4.157278627741554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based adversarial prompting, such as the Greedy Coordinate Gradient (GCG) algorithm, has emerged as a powerful method for jailbreaking large language models (LLMs). In this paper, we present a systematic appraisal of GCG and its annealing-augmented variant, T-GCG, across open-source LLMs of varying scales. Using Qwen2.5-0.5B, LLaMA-3.2-1B, and GPT-OSS-20B, we evaluate attack effectiveness on both safety-oriented prompts (AdvBench) and reasoning-intensive coding prompts. Our study reveals three key findings: (1) attack success rates (ASR) decrease with model size, reflecting the increasing complexity and non-convexity of larger models' loss landscapes; (2) prefix-based heuristics substantially overestimate attack effectiveness compared to GPT-4o semantic judgments, which provide a stricter and more realistic evaluation; and (3) coding-related prompts are significantly more vulnerable than adversarial safety prompts, suggesting that reasoning itself can be exploited as an attack vector. In addition, preliminary results with T-GCG show that simulated annealing can diversify adversarial search and achieve competitive ASR under prefix evaluation, though its benefits under semantic judgment remain limited. Together, these findings highlight the scalability limits of GCG, expose overlooked vulnerabilities in reasoning tasks, and motivate further development of annealing-inspired strategies for more robust adversarial evaluation.
- Abstract(参考訳): Greedy Coordinate Gradient (GCG)アルゴリズムのようなグラディエントベースの敵対的プロンプトは、大規模言語モデル(LLM)をジェイルブレイクするための強力な方法として登場した。
本稿では,GCGとその拡張型であるT-GCGを,様々なスケールのオープンソースLCMにわたって系統的に評価する。
Qwen2.5-0.5B, LLaMA-3.2-1B, GPT-OSS-20Bを用いて, 安全性指向性プロンプト(AdvBench)と推論集約型コーディングプロンプトの両方に対する攻撃効果を評価する。
本研究は,(1) モデルサイズによる攻撃成功率(ASR) の低下,(2) 大規模モデルの損失景観の複雑さと非凸性を反映すること,(2) より厳密で現実的な評価を提供する GPT-4o のセマンティック判断と比較して,プレフィックスに基づくヒューリスティックスによる攻撃効果を概ね過大評価すること,(3) コーディング関連プロンプトは敵の安全プロンプトよりもはるかに脆弱であること,そして, 推論自体が攻撃ベクトルとして活用可能であることを示唆する。
さらに, T-GCGによる予備的な結果から, 擬似アニーリングは, 対向探索を多様化し, 先行評価下での競争的ASRを実現することができるが, 意味的判断によるメリットは限定的であることが示された。
これらの知見は、GCGのスケーラビリティの限界を強調し、推論タスクにおける見過ごされた脆弱性を露呈し、より堅牢な敵評価のために、アニーリングにインスパイアされた戦略のさらなる発展を動機付けている。
関連論文リスト
- Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems [11.300387488829035]
Retrieval-Augmented Generation (RAG) システムは、応答を生成する前に、外部コーパスから関連文書を取得することで、Large Language Models (LLM) を強化する。
既存の毒殺攻撃戦略は、検索と生成段階を非結合として扱い、その効果を制限している。
Joint-GCGは、レトリバーモデルとジェネレータモデルの両方にわたる勾配ベースの攻撃を統合する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-06-06T15:12:06Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - SafeGenes: Evaluating the Adversarial Robustness of Genomic Foundation Models [8.019763193322298]
本稿では,ゲノム基盤モデルのセキュア解析のためのフレームワークであるSafeGenesを提案する。
我々は、高速勾配符号法とソフトプロンプト攻撃という2つのアプローチを用いて、GFMの敵の脆弱性を評価する。
ターゲットとしたソフトプロンプト攻撃は、ESM1bやESM1vのような大型モデルでも大幅に性能が低下した。
論文 参考訳(メタデータ) (2025-06-01T03:54:03Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Relaxing Graph Transformers for Adversarial Attacks [49.450581960551276]
グラフトランスフォーマー(GT)は、いくつかのベンチマークでMessage-Passing GNNを上回り、その逆の堅牢性は明らかにされていない。
本研究では,(1)ランダムウォークPE,(2)ペアワイドショートパス,(3)スペクトル摂動に基づく3つの代表的なアーキテクチャを対象とすることで,これらの課題を克服する。
評価の結果, 破滅的に脆弱であり, 作業の重要性と適応攻撃の必要性を浮き彫りにする可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-16T14:24:58Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。