論文の概要: RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content
- arxiv url: http://arxiv.org/abs/2403.13031v1
- Date: Tue, 19 Mar 2024 07:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.722322
- Title: RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content
- Title(参考訳): RigorLLM: 望ましくないコンテンツに対する大規模言語モデルのための回復力のあるガードレール
- Authors: Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song, Bo Li,
- Abstract要約: 現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
- 参考スコア(独自算出の注目度): 62.685566387625975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have showcased remarkable capabilities across various tasks in different domains. However, the emergence of biases and the potential for generating harmful content in LLMs, particularly under malicious inputs, pose significant challenges. Current mitigation strategies, while effective, are not resilient under adversarial attacks. This paper introduces Resilient Guardrails for Large Language Models (RigorLLM), a novel framework designed to efficiently and effectively moderate harmful and unsafe inputs and outputs for LLMs. By employing a multi-faceted approach that includes energy-based training data augmentation through Langevin dynamics, optimizing a safe suffix for inputs via minimax optimization, and integrating a fusion-based model combining robust KNN with LLMs based on our data augmentation, RigorLLM offers a robust solution to harmful content moderation. Our experimental evaluations demonstrate that RigorLLM not only outperforms existing baselines like OpenAI API and Perspective API in detecting harmful content but also exhibits unparalleled resilience to jailbreaking attacks. The innovative use of constrained optimization and a fusion-based guardrail approach represents a significant step forward in developing more secure and reliable LLMs, setting a new standard for content moderation frameworks in the face of evolving digital threats.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な領域における様々なタスクにまたがる顕著な機能を示した。
しかし、特に悪意のある入力の下では、バイアスの出現とLSMの有害なコンテンツを生成する可能性には大きな課題が生じる。
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,LLMに対する有害かつ安全でない入力と出力を効率よく効果的に抑制する新しいフレームワークであるResilient Guardrails for Large Language Models (RigorLLM)を紹介する。
ランゲヴィンダイナミクスによるエネルギーベースのトレーニングデータ拡張を含む多面的アプローチを採用し、ミニマックス最適化による入力に対する安全なサフィックスを最適化し、我々のデータ拡張に基づくロバストなKNNとLLMを組み合わせた融合モデルを統合することにより、RigorLLMは有害なコンテンツモデレーションに対する堅牢なソリューションを提供する。
実験により、RigorLLMは、有害なコンテンツの検出において、OpenAI APIやAspective APIのような既存のベースラインよりも優れているだけでなく、脱獄攻撃に対する非並列なレジリエンスも示している。
制約付き最適化とフュージョンベースのガードレールアプローチの革新的利用は、よりセキュアで信頼性の高いLCMを開発するための大きな一歩であり、デジタル脅威の進化に直面したコンテンツモデレーションフレームワークの新たな標準となる。
関連論文リスト
- Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用するMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - Developing Safe and Responsible Large Language Models -- A Comprehensive Framework [1.980639720136382]
SR$_textLLM$は、潜在的に安全でないコンテンツを識別し、良質なバリエーションを生成するように設計されている。
命令ベースおよびパラメータ効率の良い微調整方式を採用している。
安全対策が実施されると、安全なコンテンツの生産が大幅に改善された。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Stealthy Attack on Large Language Model based Recommendation [25.975404074836582]
大規模言語モデル (LLM) はレコメンダシステム (RS) の進歩を推進している。
本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。
攻撃者は、テストフェーズ中に単にテキストの内容を変更するだけで、アイテムの露出を大幅に向上させることができることを実証する。
論文 参考訳(メタデータ) (2024-02-18T16:51:02Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。