論文の概要: Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)
- arxiv url: http://arxiv.org/abs/2409.03131v2
- Date: Tue, 10 Sep 2024 21:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 19:48:16.810777
- Title: Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)
- Title(参考訳): それは急速にエスカレートした:Single-Turn Crescendo Attack (STCA)
- Authors: Alan Aqrawi, Arian Abbasi,
- Abstract要約: 本稿では,Single-Turn Crescendo Attack (STCA) と呼ばれる,大規模言語モデル(LLM)に対する新たな敵攻撃手法を提案する。
ルシノビッチ、セイラム、エルダン(2024年)によって導入されたマルチターン・クレシデンド攻撃法に基づき、STCAは単一の相互作用において同様の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a new method for adversarial attacks on large language models (LLMs) called the Single-Turn Crescendo Attack (STCA). Building on the multi-turn crescendo attack method introduced by Russinovich, Salem, and Eldan (2024), which gradually escalates the context to provoke harmful responses, the STCA achieves similar outcomes in a single interaction. By condensing the escalation into a single, well-crafted prompt, the STCA bypasses typical moderation filters that LLMs use to prevent inappropriate outputs. This technique reveals vulnerabilities in current LLMs and emphasizes the importance of stronger safeguards in responsible AI (RAI). The STCA offers a novel method that has not been previously explored.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) に対して,STCA (Single-Turn Crescendo Attack) と呼ばれる新たな攻撃手法を提案する。
ルシノビッチ、セイラム、エルダン(2024年)が導入したマルチターン・クレシデンド攻撃法(英語版)に基づき、STCAは文脈を徐々にエスカレートして有害な応答を誘発し、単一の相互作用において同様の結果を得る。
エスカレーションを1つの巧妙なプロンプトに凝縮することで、STCAはLLMが不適切な出力を防ぐために使用する典型的なモデレーションフィルタをバイパスする。
このテクニックは、現在のLLMの脆弱性を明らかにし、責任あるAI(RAI)におけるより強力なセーフガードの重要性を強調している。
STCAは、これまで検討されていない新しい方法を提供している。
関連論文リスト
- You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks [52.29186466633699]
トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。
textitsingle-target 生成攻撃は、高い転送可能な摂動を生成するために、各ターゲットクラスのジェネレータを訓練する。
textbfCLIP-guided textbfGenerative textbfNetwork with textbfCross-attention module (CGNC) to enhance multi-target attack。
論文 参考訳(メタデータ) (2024-07-14T12:30:32Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - CARBEN: Composite Adversarial Robustness Benchmark [70.05004034081377]
本稿では,複合対向攻撃 (CAA) が画像に与える影響を実証する。
異なるモデルのリアルタイム推論を提供し、攻撃レベルのパラメータの設定を容易にする。
CAAに対する敵対的堅牢性を評価するためのリーダーボードも導入されている。
論文 参考訳(メタデータ) (2022-07-16T01:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。