Fugu-MT 論文翻訳(概要): Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)

論文の概要: Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)

arxiv url: http://arxiv.org/abs/2409.03131v2
Date: Tue, 10 Sep 2024 21:53:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 19:48:16.810777
Title: Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA)
Title（参考訳）: それは急速にエスカレートした:Single-Turn Crescendo Attack (STCA)
Authors: Alan Aqrawi, Arian Abbasi,
Abstract要約: 本稿では,Single-Turn Crescendo Attack (STCA) と呼ばれる,大規模言語モデル(LLM)に対する新たな敵攻撃手法を提案する。ルシノビッチ、セイラム、エルダン(2024年)によって導入されたマルチターン・クレシデンド攻撃法に基づき、STCAは単一の相互作用において同様の結果を得る。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces a new method for adversarial attacks on large language models (LLMs) called the Single-Turn Crescendo Attack (STCA). Building on the multi-turn crescendo attack method introduced by Russinovich, Salem, and Eldan (2024), which gradually escalates the context to provoke harmful responses, the STCA achieves similar outcomes in a single interaction. By condensing the escalation into a single, well-crafted prompt, the STCA bypasses typical moderation filters that LLMs use to prevent inappropriate outputs. This technique reveals vulnerabilities in current LLMs and emphasizes the importance of stronger safeguards in responsible AI (RAI). The STCA offers a novel method that has not been previously explored.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) に対して,STCA (Single-Turn Crescendo Attack) と呼ばれる新たな攻撃手法を提案する。ルシノビッチ、セイラム、エルダン(2024年)が導入したマルチターン・クレシデンド攻撃法(英語版)に基づき、STCAは文脈を徐々にエスカレートして有害な応答を誘発し、単一の相互作用において同様の結果を得る。エスカレーションを1つの巧妙なプロンプトに凝縮することで、STCAはLLMが不適切な出力を防ぐために使用する典型的なモデレーションフィルタをバイパスする。このテクニックは、現在のLLMの脆弱性を明らかにし、責任あるAI(RAI)におけるより強力なセーフガードの重要性を強調している。 STCAは、これまで検討されていない新しい方法を提供している。

関連論文リスト

Strategic Deflection: Defending LLMs from Logit Manipulation [0.3903025330856988]
我々は,このような高度な攻撃に対する大規模言語モデルの反応を再定義する防衛法であるストラテジック・デフレクション(Sdeflection)を導入する。我々の実験では、SDeflectionは、良質なクエリのモデル性能を維持しながら、アタック成功率(ASR)を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-07-29T18:46:56Z)
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [15.953888359667497]
緊急エンジニアリングによるジェイルブレイク攻撃は重大な脅威になっています本研究では,防衛閾値決定(DTD)の概念を導入し,LCMの良質な世代による潜在的安全性への影響を明らかにした。本稿では,悪質な意図とは逆の意味の良質なインプットを構築するために,「セマンティック・リバーサル」戦略を用いたSugar-Coated Poison攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2025-04-08T03:57:09Z)
Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification [17.500701903902094]
大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
論文参考訳（メタデータ） (2025-03-14T08:32:12Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
An indicator for effectiveness of text-to-image guardrails utilizing the Single-Turn Crescendo Attack (STCA) [0.0]
Single-Turn Crescendo Attack (STCA)は、テキストからテキストへのAIモデルの倫理的保護を回避するために設計された革新的な方法である。本研究は,テキスト・ツー・イメージ・モデルにおけるガードレールの堅牢性を評価するための枠組みを提供する。
論文参考訳（メタデータ） (2024-11-27T19:09:16Z)
You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文参考訳（メタデータ） (2024-10-04T18:42:57Z)
CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks [52.29186466633699]
トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。 textitsingle-target 生成攻撃は、高い転送可能な摂動を生成するために、各ターゲットクラスのジェネレータを訓練する。 textbfCLIP-guided textbfGenerative textbfNetwork with textbfCross-attention module (CGNC) to enhance multi-target attack。
論文参考訳（メタデータ） (2024-07-14T12:30:32Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文参考訳（メタデータ） (2024-02-26T10:31:45Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。 5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文参考訳（メタデータ） (2023-10-04T16:39:31Z)
CARBEN: Composite Adversarial Robustness Benchmark [70.05004034081377]
本稿では,複合対向攻撃 (CAA) が画像に与える影響を実証する。異なるモデルのリアルタイム推論を提供し、攻撃レベルのパラメータの設定を容易にする。 CAAに対する敵対的堅牢性を評価するためのリーダーボードも導入されている。
論文参考訳（メタデータ） (2022-07-16T01:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。