論文の概要: Can Safety Fine-Tuning Be More Principled? Lessons Learned from Cybersecurity
- arxiv url: http://arxiv.org/abs/2501.11183v1
- Date: Sun, 19 Jan 2025 21:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:59.306314
- Title: Can Safety Fine-Tuning Be More Principled? Lessons Learned from Cybersecurity
- Title(参考訳): 安全チューニングはより原則的か? サイバーセキュリティから学んだ教訓
- Authors: David Williams-King, Linh Le, Adam Oberman, Yoshua Bengio,
- Abstract要約: 私たちは、現在の安全性の微調整は、サイバーセキュリティにおける攻撃者とディフェンダーの間の伝統的なキャット・アンド・ムースゲームと非常によく似ていると論じています。
我々は、新しい敵のジェイルブレイク攻撃、報酬のハッキング、制御問題の喪失を防ぐために、現在の防御が不十分であることを示す。
- 参考スコア(独自算出の注目度): 46.83576558654259
- License:
- Abstract: As LLMs develop increasingly advanced capabilities, there is an increased need to minimize the harm that could be caused to society by certain model outputs; hence, most LLMs have safety guardrails added, for example via fine-tuning. In this paper, we argue the position that current safety fine-tuning is very similar to a traditional cat-and-mouse game (or arms race) between attackers and defenders in cybersecurity. Model jailbreaks and attacks are patched with bandaids to target the specific attack mechanism, but many similar attack vectors might remain. When defenders are not proactively coming up with principled mechanisms, it becomes very easy for attackers to sidestep any new defenses. We show how current defenses are insufficient to prevent new adversarial jailbreak attacks, reward hacking, and loss of control problems. In order to learn from past mistakes in cybersecurity, we draw analogies with historical examples and develop lessons learned that can be applied to LLM safety. These arguments support the need for new and more principled approaches to designing safe models, which are architected for security from the beginning. We describe several such approaches from the AI literature.
- Abstract(参考訳): LLMの高度化に伴い、特定のモデル出力によって社会に生じる被害を最小限に抑える必要性が高まっているため、ほとんどのLLMは、例えば微調整によって安全ガードレールを追加している。
本稿では,サイバーセキュリティにおける攻撃者と防衛者の間の伝統的なキャット・アンド・ムース・ゲーム(または武器競争)と,現行の安全性の微調整がよく似ているという立場を論じる。
モデルジェイルブレイクと攻撃は特定の攻撃メカニズムを狙うためにバンドエイドでパッチされるが、多くの類似の攻撃ベクトルが残る可能性がある。
防御者が積極的に原理化されたメカニズムを思いつかなかった場合、攻撃者が新しい防御をサイドステップするのは非常に簡単になる。
我々は、新しい敵のジェイルブレイク攻撃、報酬のハッキング、制御問題の喪失を防ぐために、現在の防御が不十分であることを示す。
サイバーセキュリティにおける過去の過ちから学ぶために、私たちは過去の事例と類似点を描き、LLMの安全性に適用可能な教訓を開発した。
これらの議論は、セキュリティのために最初から設計されている安全なモデルを設計するための、新しくより原則化されたアプローチの必要性を支持する。
本稿では,AI文献からのいくつかのアプローチについて述べる。
関連論文リスト
- Taking off the Rose-Tinted Glasses: A Critical Look at Adversarial ML Through the Lens of Evasion Attacks [11.830908033835728]
我々は、過度に寛容な攻撃と過度に制限された防衛脅威モデルが、MLドメインにおける防衛開発を妨げていると主張している。
我々は、AIの観点からではなく、システムセキュリティの観点から、敵対的機械学習を分析する。
論文 参考訳(メタデータ) (2024-10-15T21:33:23Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Safety Alignment Should Be Made More Than Just a Few Tokens Deep [48.823599143711235]
現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。
比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。
最初の数個のトークン以上の安全性アライメントの強化は、一般的なエクスプロイトに対するロバスト性を大幅に向上させる可能性があることを、私たちは示しています。
論文 参考訳(メタデータ) (2024-06-10T00:35:23Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Arms Race in Adversarial Malware Detection: A Survey [33.8941961394801]
悪意あるソフトウェア(マルウェア)は、機械学習(ML)技術に対処しなければならない主要なサイバー脅威である。
MLは敵例として知られる攻撃に対して脆弱である。
ディフェンダーの機能セットを知ることは、転送攻撃の成功に不可欠である。
敵の訓練の有効性は、最も強力な攻撃を識別するディフェンダーの能力に依存する。
論文 参考訳(メタデータ) (2020-05-24T07:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。