論文の概要: RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content
- arxiv url: http://arxiv.org/abs/2403.13031v1
- Date: Tue, 19 Mar 2024 07:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.722322
- Title: RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content
- Title(参考訳): RigorLLM: 望ましくないコンテンツに対する大規模言語モデルのための回復力のあるガードレール
- Authors: Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song, Bo Li,
- Abstract要約: 現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
- 参考スコア(独自算出の注目度): 62.685566387625975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have showcased remarkable capabilities across various tasks in different domains. However, the emergence of biases and the potential for generating harmful content in LLMs, particularly under malicious inputs, pose significant challenges. Current mitigation strategies, while effective, are not resilient under adversarial attacks. This paper introduces Resilient Guardrails for Large Language Models (RigorLLM), a novel framework designed to efficiently and effectively moderate harmful and unsafe inputs and outputs for LLMs. By employing a multi-faceted approach that includes energy-based training data augmentation through Langevin dynamics, optimizing a safe suffix for inputs via minimax optimization, and integrating a fusion-based model combining robust KNN with LLMs based on our data augmentation, RigorLLM offers a robust solution to harmful content moderation. Our experimental evaluations demonstrate that RigorLLM not only outperforms existing baselines like OpenAI API and Perspective API in detecting harmful content but also exhibits unparalleled resilience to jailbreaking attacks. The innovative use of constrained optimization and a fusion-based guardrail approach represents a significant step forward in developing more secure and reliable LLMs, setting a new standard for content moderation frameworks in the face of evolving digital threats.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な領域における様々なタスクにまたがる顕著な機能を示した。
しかし、特に悪意のある入力の下では、バイアスの出現とLSMの有害なコンテンツを生成する可能性には大きな課題が生じる。
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,LLMに対する有害かつ安全でない入力と出力を効率よく効果的に抑制する新しいフレームワークであるResilient Guardrails for Large Language Models (RigorLLM)を紹介する。
ランゲヴィンダイナミクスによるエネルギーベースのトレーニングデータ拡張を含む多面的アプローチを採用し、ミニマックス最適化による入力に対する安全なサフィックスを最適化し、我々のデータ拡張に基づくロバストなKNNとLLMを組み合わせた融合モデルを統合することにより、RigorLLMは有害なコンテンツモデレーションに対する堅牢なソリューションを提供する。
実験により、RigorLLMは、有害なコンテンツの検出において、OpenAI APIやAspective APIのような既存のベースラインよりも優れているだけでなく、脱獄攻撃に対する非並列なレジリエンスも示している。
制約付き最適化とフュージョンベースのガードレールアプローチの革新的利用は、よりセキュアで信頼性の高いLCMを開発するための大きな一歩であり、デジタル脅威の進化に直面したコンテンツモデレーションフレームワークの新たな標準となる。
関連論文リスト
- HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Development of an Edge Resilient ML Ensemble to Tolerate ICS Adversarial Attacks [0.9437165725355702]
敵の攻撃に耐えられるように設計された、レジリエントなエッジ機械学習アーキテクチャを構築します。
reMLはResilient DDDASパラダイム、移動目標防衛(MTD)理論、TinyMLに基づいている。
提案手法は電力効率とプライバシ保護であり,ISCのセキュリティを高めるため,電力制約のあるデバイスにデプロイすることができる。
論文 参考訳(メタデータ) (2024-09-26T19:37:37Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
mathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)$ Optimization frameworkを紹介します。
SEASはイニシアティブ、アタック、アドバーサの3段階を繰り返す。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。