論文の概要: Tamper-Resistant Safeguards for Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2408.00761v2
- Date: Thu, 8 Aug 2024 22:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:59:25.724963
- Title: Tamper-Resistant Safeguards for Open-Weight LLMs
- Title(参考訳): オープンウェイトLLMのタンパ抵抗保護
- Authors: Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika,
- Abstract要約: オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
- 参考スコア(独自算出の注目度): 57.90526233549399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性について、広く懸念されている。
オープンウェイト LLM は、モデルウェイトを変更する攻撃に対して、既存のセーフガードには堅牢性がないため、ユニークな課題を呈している。
例えば、最近の研究は、いくつかの微調整のステップで、拒否と未学習の保護を自明に除去できることを実証している。
これらの脆弱性は、オープンウェイト LLM の安全なリリースを可能にするための新しいアプローチを必要とする。
我々は,数千歩の微調整の後にも,敵が保護を除去できないような,タンパ耐性の保護具をオープンウェイトLLMに組み込む方法TARを開発した。
広汎な評価とレッド・チームリング分析において,本手法は良識を保ちながらタンパー抵抗を大幅に改善することがわかった。
以上の結果から, タンパー抵抗性はトラクタブルな問題であり, オープンウェイトLLMの安全性と安全性を向上させるために, 将来性のある新たな道を開くことが示唆された。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Diversity Helps Jailbreak Large Language Models [16.34618038553998]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
LLMに以前の攻撃を逸脱して難読化するように指示するだけで、我々の手法は既存の手法よりも劇的に優れている。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Rethinking Jailbreaking through the Lens of Representation Engineering [45.70565305714579]
最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。