論文の概要: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks
- arxiv url: http://arxiv.org/abs/2302.05733v1
- Date: Sat, 11 Feb 2023 15:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:50:45.278240
- Title: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks
- Title(参考訳): LLMの爆発的プログラム動作:標準セキュリティ攻撃によるデュアルユース
- Authors: Daniel Kang, Xuechen Li, Ion Stoica, Carlos Guestrin, Matei Zaharia,
Tatsunori Hashimoto
- Abstract要約: 命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
- 参考スコア(独自算出の注目度): 67.86285142381644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in instruction-following large language models (LLMs) have
led to dramatic improvements in a range of NLP tasks. Unfortunately, we find
that the same improved capabilities amplify the dual-use risks for malicious
purposes of these models. Dual-use is difficult to prevent as
instruction-following capabilities now enable standard attacks from computer
security. The capabilities of these instruction-following LLMs provide strong
economic incentives for dual-use by malicious actors. In particular, we show
that instruction-following LLMs can produce targeted malicious content,
including hate speech and scams, bypassing in-the-wild defenses implemented by
LLM API vendors. Our analysis shows that this content can be generated
economically and at cost likely lower than with human effort alone. Together,
our findings suggest that LLMs will increasingly attract more sophisticated
adversaries and attacks, and addressing these attacks may require new
approaches to mitigations.
- Abstract(参考訳): 命令追従型大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクにおいて劇的な改善をもたらした。
残念ながら、同じ改良された能力は、これらのモデルの悪意ある目的のためにデュアルユースのリスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
これらの命令追従 LLM の能力は、悪意あるアクターによる二重利用に強い経済的インセンティブをもたらす。
特に、命令をフォローするllmは、ヘイトスピーチや詐欺など、ターゲットとする悪意のあるコンテンツを生成でき、llm apiベンダによって実装された内部防御を回避できることを示す。
我々の分析によると、このコンテンツは経済的に、コスト的に、人的努力だけで生成できる。
その結果,LSMはより高度な敵や攻撃を惹きつけるようになり,これらの攻撃に対処するには新たな対策が必要である可能性が示唆された。
関連論文リスト
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models [35.77228114378362]
大規模言語モデル(LLM)は、攻撃者が設定した特定の「トリガー」を含む入力が悪意ある出力を生成する。
従来の防衛戦略は、モデルアクセスの制限、高い計算コスト、データ要求のため、APIアクセス可能なLLMでは実用的ではない。
バックドア攻撃を緩和するために,LLMのユニークな推論能力を活用するChain-of-Scrutiny (CoS)を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:53:25Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-12-01T06:36:17Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。