Fugu-MT 論文翻訳(概要): Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs

論文の概要: Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs

arxiv url: http://arxiv.org/abs/2501.02018v1
Date: Thu, 02 Jan 2025 15:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:50.59097
Title: Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs
Title（参考訳）: 可変安全性能トレードオフによる大規模言語モデルのリアルタイム保護
Authors: Joao Fonseca, Andrew Bell, Julia Stoyanovich,
Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすいことが示されている。ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、重大な被害を受けている。制御されたテキスト生成と「ナッジ」を組み合わせた新しいセーフガード「SafeNudge」を導入する。
参考スコア（独自算出の注目度）: 9.312913540732445
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have been shown to be susceptible to jailbreak attacks, or adversarial attacks used to illicit high risk behavior from a model. Jailbreaks have been exploited by cybercriminals and blackhat actors to cause significant harm, highlighting the critical need to safeguard widely-deployed models. Safeguarding approaches, which include fine-tuning models or having LLMs "self-reflect", may lengthen the inference time of a model, incur a computational penalty, reduce the semantic fluency of an output, and restrict ``normal'' model behavior. Importantly, these Safety-Performance Trade-offs (SPTs) remain an understudied area. In this work, we introduce a novel safeguard, called SafeNudge, that combines Controlled Text Generation with "nudging", or using text interventions to change the behavior of a model. SafeNudge triggers during text-generation while a jailbreak attack is being executed, and can reduce successful jailbreak attempts by 30% by guiding the LLM towards a safe responses. It adds minimal latency to inference and has a negligible impact on the semantic fluency of outputs. Further, we allow for tunable SPTs. SafeNudge is open-source and available through https://pypi.org/, and is compatible with models loaded with the Hugging Face "transformers" library.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃や、モデルから高いリスク行動を不正にするために使用される敵攻撃の影響を受けやすいことが示されている。ジェイルブレイクはサイバー犯罪者やブラックハット俳優によって悪用され、広範囲に配備されたモデルを保護するための重要な必要性を強調している。微調整モデルやLPM"self-reflect"を含む保護的アプローチは、モデルの推論時間を延長し、計算的ペナルティを発生させ、出力のセマンティック・フラレンシーを減少させ、'`normal'モデルの振る舞いを制限する。重要な点として、これらの安全性能トレードオフ(SPT)は未調査領域である。そこで本研究では,制御されたテキスト生成と"育児"を組み合わせた新しいセーフガードであるSafeNudgeを導入する。 SafeNudgeは、ジェイルブレイク攻撃の実行中にテキストジェネレーション中にトリガーし、LDMを安全な応答に導くことで、ジェイルブレイクの試みを30%削減することができる。推論に最小限のレイテンシを追加し、出力のセマンティック・フラレンシーに無視できる影響を与えます。さらに、調整可能なSPTを許可する。 SafeNudgeはhttps://pypi.org/を通じてオープンソースであり、Hugging Faceの"transformers"ライブラリでロードされたモデルと互換性がある。

関連論文リスト

Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。一般的にジェイルブレイクと呼ばれる敵の攻撃は安全プロトコルをバイパスできる LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文参考訳（メタデータ） (2025-04-28T07:38:43Z)
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [13.939357884952154]
我々は,大規模言語モデル(LLM)の脆弱性を明らかにし,その脆弱性をDefense Threshold Decay (DTD)と呼ぶ。モデルがかなりの良性コンテンツを生成すると、その注意重みは入力から事前出力へと変化し、ジェイルブレイク攻撃の影響を受けやすくなります。このような攻撃を緩和するため,単純な防御戦略であるPOSDを導入し,脱獄の成功率を大幅に低減する。
論文参考訳（メタデータ） (2025-04-08T03:57:09Z)
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。 Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。 Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文参考訳（メタデータ） (2025-02-17T10:39:21Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [57.86886012610389]
ジェイルブレイク攻撃は意図しない有害な出力を引き起こす脆弱性を悪用する私たちは、jailbreak攻撃を防御するために設計された新しい方法論であるLayer-AdvPatcherを紹介します。我々は,2つのモデル,4つのベンチマークデータセット,および複数の最先端のジェイルブレイクベンチマークに関する広範な実験を行い,アプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。 TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文参考訳（メタデータ） (2024-12-11T08:44:15Z)
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、MLLMは脱獄攻撃に弱いままである。我々は、安全な報酬モデルを利用してジェイルブレイク攻撃を防御する推論時防衛フレームワークImmuneを提案する。
論文参考訳（メタデータ） (2024-11-27T19:00:10Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。 Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文参考訳（メタデータ） (2024-10-03T08:34:17Z)
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。 MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文参考訳（メタデータ） (2024-09-26T10:12:19Z)
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。 SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文参考訳（メタデータ） (2024-06-26T07:15:44Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。