論文の概要: Context Misleads LLMs: The Role of Context Filtering in Maintaining Safe Alignment of LLMs
- arxiv url: http://arxiv.org/abs/2508.10031v1
- Date: Sat, 09 Aug 2025 02:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.030124
- Title: Context Misleads LLMs: The Role of Context Filtering in Maintaining Safe Alignment of LLMs
- Title(参考訳): LLMの安全アライメント維持におけるコンテキストフィルタの役割
- Authors: Jinhwa Kim, Ian G. Harris,
- Abstract要約: 悪意のあるユーザは、しばしば敵の文脈を利用して、大規模言語モデル(LLM)を欺く。
本研究では,コンテキストフィルタリングモデルと呼ばれる新しい防御機構を提案する。
我々のモデルは、ジェイルブレイク攻撃の攻撃成功率を最大88%下げる能力を示している。
- 参考スコア(独自算出の注目度): 7.183743839410718
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Large Language Models (LLMs) have shown significant advancements in performance, various jailbreak attacks have posed growing safety and ethical risks. Malicious users often exploit adversarial context to deceive LLMs, prompting them to generate responses to harmful queries. In this study, we propose a new defense mechanism called Context Filtering model, an input pre-processing method designed to filter out untrustworthy and unreliable context while identifying the primary prompts containing the real user intent to uncover concealed malicious intent. Given that enhancing the safety of LLMs often compromises their helpfulness, potentially affecting the experience of benign users, our method aims to improve the safety of the LLMs while preserving their original performance. We evaluate the effectiveness of our model in defending against jailbreak attacks through comparative analysis, comparing our approach with state-of-the-art defense mechanisms against six different attacks and assessing the helpfulness of LLMs under these defenses. Our model demonstrates its ability to reduce the Attack Success Rates of jailbreak attacks by up to 88% while maintaining the original LLMs' performance, achieving state-of-the-art Safety and Helpfulness Product results. Notably, our model is a plug-and-play method that can be applied to all LLMs, including both white-box and black-box models, to enhance their safety without requiring any fine-tuning of the models themselves. We will make our model publicly available for research purposes.
- Abstract(参考訳): 大規模言語モデル(LLM)のパフォーマンスは著しく向上しているが、様々なジェイルブレイク攻撃は安全性と倫理的リスクを増大させている。
悪意のあるユーザはLLMを騙すために敵のコンテキストを利用することが多く、有害なクエリに対する応答を生成する。
本研究では,信頼できない,信頼できないコンテキストをフィルタリングする入力前処理手法であるContext Filtering modelを提案する。
LLMの安全性向上は、良質なユーザ体験に影響を与える可能性があり、その有用性を損なうことが多いことから、本手法は、本来の性能を維持しつつ、LLMの安全性を向上させることを目的としている。
本モデルの有効性を比較分析により評価し,6つの異なる攻撃に対する最新防御機構と比較し,これらの防御下でのLDMの有用性を評価した。
本モデルでは,従来のLLMの性能を維持しつつジェイルブレイク攻撃の攻撃成功率を最大88%削減し,最先端の安全性とヘルプフルネス製品の結果を達成する能力を示す。
特に、このモデルは、ホワイトボックスモデルとブラックボックスモデルの両方を含む全てのLCMに適用可能なプラグアンドプレイ方式であり、モデル自体の微調整を必要とせずに安全性を高めることができる。
私たちは研究目的でモデルを公開します。
関連論文リスト
- CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations [9.952498288063532]
セキュリティアライメントにより、Large Language Model(LLM)は悪意のあるクエリに対する保護を得ることができる。
LLMのセキュリティ保護機構を解析し,攻撃と防御を組み合わせた枠組みを提案する。
本手法は, LLM中間層埋め込みの線形分離性, およびジェイルブレイク攻撃の本質に基づく。
論文 参考訳(メタデータ) (2025-07-08T14:45:21Z) - Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models [15.134149399922192]
そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。
攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。
我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
論文 参考訳(メタデータ) (2025-05-23T06:19:05Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。