論文の概要: Beyond Suffixes: Token Position in GCG Adversarial Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03265v1
- Date: Tue, 03 Feb 2026 08:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.337159
- Title: Beyond Suffixes: Token Position in GCG Adversarial Attacks on Large Language Models
- Title(参考訳): 接尾辞を超えて:大規模言語モデルにおけるGCG敵攻撃におけるトークン位置
- Authors: Hicham Eddoubi, Umar Faruk Abdullahi, Fadi Hassan,
- Abstract要約: 我々は、一般的なGreedy Coordinate Gradient(GCG)攻撃に注目し、ジェイルブレイク攻撃の未発見の攻撃軸を特定する。
ケーススタディとしてGCGを用いて, 接尾辞の代わりに接頭辞を生成するよう攻撃を最適化し, 攻撃成功率に実質的に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have seen widespread adoption across multiple domains, creating an urgent need for robust safety alignment mechanisms. However, robustness remains challenging due to jailbreak attacks that bypass alignment via adversarial prompts. In this work, we focus on the prevalent Greedy Coordinate Gradient (GCG) attack and identify a previously underexplored attack axis in jailbreak attacks typically framed as suffix-based: the placement of adversarial tokens within the prompt. Using GCG as a case study, we show that both optimizing attacks to generate prefixes instead of suffixes and varying adversarial token position during evaluation substantially influence attack success rates. Our findings highlight a critical blind spot in current safety evaluations and underline the need to account for the position of adversarial tokens in the adversarial robustness evaluation of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のドメインで広く採用されており、堅牢な安全アライメントメカニズムが緊急に必要である。
しかし、敵のプロンプトによるアライメントをバイパスするジェイルブレイク攻撃のため、ロバスト性は依然として困難である。
本研究では,一般的なGreedy Coordinate Gradient(GCG)攻撃に注目し,従来未発見だったジェイルブレイク攻撃の攻撃軸を,通常接尾辞ベース(suffix-based)としてフレーム化して,プロンプト内に敵トークンを配置する。
ケーススタディとしてGCGを用いて, 接尾辞の代わりに接頭辞を生成するよう攻撃を最適化し, 攻撃成功率に実質的に影響を及ぼすことを示す。
本研究は, 現状の安全性評価における重要な盲点を浮き彫りにして, LLMの対向ロバスト性評価において, 対向トークンの位置を考慮する必要性を浮き彫りにした。
関連論文リスト
- Mask-GCG: Are All Tokens in Adversarial Suffixes Necessary for Jailbreak Attacks? [3.5954282637912787]
本研究では,サフィックス内の影響のあるトークンを識別するために,学習可能なトークンマスキングを利用するプラグアンドプレイ方式であるMask-GCGを提案する。
本手法は,高インパクト位置におけるトークンの更新確率を高めつつ,低インパクト位置でのトークンのプルーニングを行う。
論文 参考訳(メタデータ) (2025-09-08T05:45:37Z) - The Resurgence of GCG Adversarial Attacks on Large Language Models [4.157278627741554]
本稿では,GCGとその変種であるTGCGを,オープンソースランドスケープ全体にわたって体系的に評価する。
攻撃の成功率はモデルのサイズによって減少し、複雑さが増すのを反映している。
コーディングプロンプトは 敵の安全プロンプトよりも 脆弱で 推論自体を 攻撃ベクトルとして利用できる
論文 参考訳(メタデータ) (2025-08-30T07:04:29Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Checkpoint-GCG: Auditing and Attacking Fine-Tuning-Based Prompt Injection Defenses [10.08464073347558]
細調整による防御に対するホワイトボックス攻撃であるCheckpoint-GCGを導入する。
最強防衛に対する攻撃成功率(ASR)を最大96%まで達成できるチェックポイントGCGを示す。
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。