Fugu-MT 論文翻訳(概要): Baseline Defenses for Adversarial Attacks Against Aligned Language Models

論文の概要: Baseline Defenses for Adversarial Attacks Against Aligned Language Models

arxiv url: http://arxiv.org/abs/2309.00614v2
Date: Mon, 4 Sep 2023 17:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 11:49:23.525380
Title: Baseline Defenses for Adversarial Attacks Against Aligned Language Models
Title（参考訳）: 言語モデルに対する敵対的攻撃に対するベースライン防御
Authors: Neel Jain, Avi Schwarzschild, Yuxin Wen, Gowthami Somepalli, John Kirchenbauer, Ping-yeh Chiang, Micah Goldblum, Aniruddha Saha, Jonas Geiping, Tom Goldstein
Abstract要約: 最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
参考スコア（独自算出の注目度）: 109.75753454188705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models quickly become ubiquitous, it becomes critical to understand their security vulnerabilities. Recent work shows that text optimizers can produce jailbreaking prompts that bypass moderation and alignment. Drawing from the rich body of work on adversarial machine learning, we approach these attacks with three questions: What threat models are practically useful in this domain? How do baseline defense techniques perform in this new domain? How does LLM security differ from computer vision? We evaluate several baseline defense strategies against leading adversarial attacks on LLMs, discussing the various settings in which each is feasible and effective. Particularly, we look at three types of defenses: detection (perplexity based), input preprocessing (paraphrase and retokenization), and adversarial training. We discuss white-box and gray-box settings and discuss the robustness-performance trade-off for each of the defenses considered. We find that the weakness of existing discrete optimizers for text, combined with the relatively high costs of optimization, makes standard adaptive attacks more challenging for LLMs. Future research will be needed to uncover whether more powerful optimizers can be developed, or whether the strength of filtering and preprocessing defenses is greater in the LLMs domain than it has been in computer vision.
Abstract（参考訳）: 大きな言語モデルが急速に普及するにつれて、セキュリティ上の脆弱性を理解することが重要になる。最近の研究では、テキストオプティマイザがモデレーションとアライメントをバイパスするジェイルブレイクプロンプトを生成できることが示されている。敵対的機械学習に関する豊富な仕事から、私たちは3つの質問でこれらの攻撃にアプローチする。この新しいドメインでは、ベースライン防御技術はどのように機能するのか? LLMのセキュリティはコンピュータビジョンとどう違うのか? 我々は,LLMに対する先進的な攻撃に対する基本的防御戦略を評価し,それぞれが実現可能かつ効果的である様々な設定について議論した。特に,検出(複雑度ベース),入力前処理(paraphraseとretokenization),逆行訓練の3種類の防御について考察した。ホワイトボックスとグレイボックスの設定を議論し、検討した各防御のロバスト性・性能上のトレードオフについて論じる。従来のテキスト用離散最適化器の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。将来の研究は、より強力なオプティマイザを開発できるかどうか、あるいはコンピュータビジョンよりもLLMの領域でフィルタリングと前処理の強度が高いかどうかを明らかにするために必要である。

関連論文リスト

Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T16:42:09Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Gandalf the Red: Adaptive Security for LLMs [2.9422902813085665]
大規模言語モデル(LLM)アプリケーションにおける即時攻撃に対する防衛の現在の評価は、敵の行動の動的性質と、制限された防御によって正統なユーザに対して課されるユーザビリティの罰の2つの重要な要素を見落としている。攻撃者を正当なユーザから明確に分離し、マルチステップインタラクションをモデル化し、最適化可能な形式でセキュリティユーティリティを表現するD-SECを提案する。
論文参考訳（メタデータ） (2025-01-14T08:30:49Z)
FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文参考訳（メタデータ） (2024-12-10T17:02:28Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文参考訳（メタデータ） (2024-10-20T14:07:24Z)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文参考訳（メタデータ） (2024-10-09T01:35:38Z)
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T15:37:15Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Large Language Model Sentinel: LLM Agent for Adversarial Purification [27.461127931996323]
大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。 LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
論文参考訳（メタデータ） (2024-05-24T07:23:56Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文参考訳（メタデータ） (2024-02-09T09:09:39Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文参考訳（メタデータ） (2021-11-23T23:42:16Z)
Attack Agnostic Adversarial Defense via Visual Imperceptible Bound [70.72413095698961]
本研究の目的は、目視攻撃と目視攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することである。提案するディフェンスモデルは,MNIST,CIFAR-10,Tiny ImageNetデータベース上で評価される。提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。
論文参考訳（メタデータ） (2020-10-25T23:14:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。