論文の概要: Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework
- arxiv url: http://arxiv.org/abs/2312.00029v3
- Date: Sun, 18 Aug 2024 22:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:57:15.639397
- Title: Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework
- Title(参考訳): Bergeron: 良心に基づくアライメントフレームワークを通じて、敵対的攻撃を議論する
- Authors: Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si,
- Abstract要約: Bergeronは、大規模言語モデルの攻撃に対する堅牢性を改善するために設計されたフレームワークである。
有害なコンテンツのアウトプットを監視しながら、プライマリモデルを着信攻撃から保護する方がよい。
Bergeronと統合されたモデルは、平均して、そのようなサポートのないモデルに比べて、攻撃に対して約7倍の耐性があることがわかった。
- 参考スコア(独自算出の注目度): 20.82486620973901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research into AI alignment has grown considerably since the recent introduction of increasingly capable Large Language Models (LLMs). Unfortunately, modern methods of alignment still fail to fully prevent harmful responses when models are deliberately attacked. Such vulnerabilities can lead to LLMs being manipulated into generating hazardous content: from instructions for creating dangerous materials to inciting violence or endorsing unethical behaviors. To help mitigate this issue, we introduce Bergeron: a framework designed to improve the robustness of LLMs against attacks without any additional parameter fine-tuning. Bergeron is organized into two tiers; with a secondary LLM acting as a guardian to the primary LLM. This framework better safeguards the primary model against incoming attacks while monitoring its output for any harmful content. Empirical analysis reviews that by using Bergeron to complement models with existing alignment training, we can significantly improve the robustness and safety of multiple, commonly used commercial and open-source LLMs. Specifically, we found that models integrated with Bergeron are, on average, nearly seven times more resistant to attacks compared to models without such support.
- Abstract(参考訳): AIアライメントの研究は、最近、より有能なLarge Language Models (LLMs)が導入されて以来、大きく成長している。
残念なことに、現代のアライメントの方法は、モデルが意図的に攻撃されたとき、有害な応答を完全に防ぐことができない。
このような脆弱性は、危険な物質を作るための指示から、暴力を誘発したり、非倫理的行動を支持したりまで、LSMを操作して有害なコンテンツを生成する可能性がある。
この問題を軽減するために,パラメータの微調整を伴わずに攻撃に対するLDMの堅牢性を改善するために設計されたフレームワークであるBergeronを紹介した。
ベルジェロンは2つの階層に分かれており、二次LLMは一次LLMの保護者として機能している。
このフレームワークは、有害なコンテンツのアウトプットを監視しながら、入ってくる攻撃に対して主要なモデルをよりよく保護する。
経験的分析では、既存のアライメントトレーニングでモデルを補完するためにBergeronを使用することで、複数の商用およびオープンソースのLCMの堅牢性と安全性を大幅に向上させることができる。
具体的には、Bergeronと統合されたモデルは、平均して、そのようなサポートのないモデルに比べて、攻撃に対する抵抗性が約7倍高いことがわかった。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [23.16217797677075]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。