Fugu-MT 論文翻訳(概要): Improved Large Language Model Jailbreak Detection via Pretrained Embeddings

論文の概要: Improved Large Language Model Jailbreak Detection via Pretrained Embeddings

arxiv url: http://arxiv.org/abs/2412.01547v1
Date: Mon, 02 Dec 2024 14:35:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.601467
Title: Improved Large Language Model Jailbreak Detection via Pretrained Embeddings
Title（参考訳）: 事前学習による大規模言語モデルジェイルブレイク検出の改善
Authors: Erick Galinkin, Martin Sablotny,
Abstract要約: 本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The adoption of large language models (LLMs) in many applications, from customer service chat bots and software development assistants to more capable agentic systems necessitates research into how to secure these systems. Attacks like prompt injection and jailbreaking attempt to elicit responses and actions from these models that are not compliant with the safety, privacy, or content policies of organizations using the model in their application. In order to counter abuse of LLMs for generating potentially harmful replies or taking undesirable actions, LLM owners must apply safeguards during training and integrate additional tools to block the LLM from generating text that abuses the model. Jailbreaking prompts play a vital role in convincing an LLM to generate potentially harmful content, making it important to identify jailbreaking attempts to block any further steps. In this work, we propose a novel approach to detect jailbreak prompts based on pairing text embeddings well-suited for retrieval with traditional machine learning classification algorithms. Our approach outperforms all publicly available methods from open source LLM security applications.
Abstract（参考訳）: 顧客サービスチャットボットやソフトウェア開発アシスタントから、より有能なエージェントシステムまで、多くのアプリケーションにおける大規模言語モデル(LLM)の採用は、これらのシステムのセキュリティの方法の研究を必要とする。迅速なインジェクションやジェイルブレイクのような攻撃は、アプリケーションでモデルを使用している組織の安全性、プライバシ、コンテンツポリシーに準拠していないこれらのモデルから応答とアクションを引き出そうとする。 LLMの所有者は、潜在的に有害な応答を生成したり、望ましくない行動を起こそうとするLLMの悪用に対処するために、トレーニング中にセーフガードを適用し、LLMがモデルを悪用するテキストを生成するのを阻止するための追加のツールを統合する必要がある。ジェイルブレイクのプロンプトは、LLMに潜在的に有害なコンテンツを生成するよう説得する上で重要な役割を担っている。本研究では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。

関連論文リスト

Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection? [2.6140509675507384]
大規模言語モデル(LLM)の内部表現を調べることでジェイルブレイク現象を研究する。具体的には、オープンソースのLCM GPT-Jと状態空間モデルMamba2を分析する。本研究は,ロバストなジェイルブレイク検出・防御のための内部モデル力学の活用に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2025-10-08T02:55:31Z)
LLMSymGuard: A Symbolic Safety Guardrail Framework Leveraging Interpretable Jailbreak Concepts [5.019114272620707]
この研究は、Sparse Autoencoders (SAE)を活用して解釈可能な概念を識別する新しいフレームワークである textbfLLMSymGuardを導入している。意味的に意味のある内部表現を抽出することで、LLMSymGuardは象徴的で論理的な安全ガードレールを構築することができる。
論文参考訳（メタデータ） (2025-08-22T12:13:38Z)
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs [15.640342726041732]
ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
論文参考訳（メタデータ） (2025-05-26T08:27:51Z)
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。一般的にジェイルブレイクと呼ばれる敵の攻撃は安全プロトコルをバイパスできる LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文参考訳（メタデータ） (2025-04-28T07:38:43Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Buckle Up: Robustifying LLMs at Every Customization Stage via Data Curation [20.176424063726277]
大規模言語モデル(LLM)は「カストミゼーション(customization)」と呼ばれるプロセスを通じて下流アプリケーションに広く適応する。近年の研究では、LSMを悪意のあるサンプルでチューニングすることで、その堅牢性を損なうことができ、有害なコンテンツを増幅する脆弱性が明らかにされている。
論文参考訳（メタデータ） (2024-10-03T05:24:38Z)
Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文参考訳（メタデータ） (2024-06-19T16:09:58Z)
Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文参考訳（メタデータ） (2024-05-30T12:50:32Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文参考訳（メタデータ） (2024-03-13T11:16:43Z)
Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。 imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文参考訳（メタデータ） (2024-02-04T01:29:24Z)
Rethinking Jailbreaking through the Lens of Representation Engineering [45.70565305714579]
最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-01-12T00:50:04Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。