論文の概要: GCG Attack On A Diffusion LLM
- arxiv url: http://arxiv.org/abs/2601.14266v1
- Date: Tue, 30 Dec 2025 23:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.815469
- Title: GCG Attack On A Diffusion LLM
- Title(参考訳): 拡散LDMにおけるGCG攻撃
- Authors: Ruben Neyroud, Sam Corley,
- Abstract要約: グレディ・コーディネート・グラディエント(GCG)攻撃は自己回帰モデルに対して有効であることが証明された。
LLaDAに対するGCG型逆行性攻撃の探索的研究を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most LLMs are autoregressive, diffusion-based LLMs have recently emerged as an alternative method for generation. Greedy Coordinate Gradient (GCG) attacks have proven effective against autoregressive models, but their applicability to diffusion language models remains largely unexplored. In this work, we present an exploratory study of GCG-style adversarial prompt attacks on LLaDA (Large Language Diffusion with mAsking), an open-source diffusion LLM. We evaluate multiple attack variants, including prefix perturbations and suffix-based adversarial generation, on harmful prompts drawn from the AdvBench dataset. Our study provides initial insights into the robustness and attack surface of diffusion language models and motivates the development of alternative optimization and evaluation strategies for adversarial analysis in this setting.
- Abstract(参考訳): ほとんどのLSMは自己回帰的であるが、拡散型LSMは近年、代替生成法として出現している。
グレディ・コーディネート・グラディエント(GCG)攻撃は自己回帰モデルに対して有効であることが証明されているが、拡散言語モデルへの適用性はほとんど未解明のままである。
本稿では,オープンソースの拡散LDMであるLLaDA(Large Language Diffusion with mAsking)に対するGCG-style adversarial prompt attackの探索的研究について述べる。
我々は,AdvBenchデータセットから引き出された有害なプロンプトに基づいて,接頭辞の摂動や接尾辞に基づく対逆生成を含む複数の攻撃変異を評価した。
本研究は,拡散言語モデルのロバスト性やアタック面についての最初の知見を提供し,この環境下での代替最適化と評価戦略の開発を動機づけるものである。
関連論文リスト
- A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。