Fugu-MT 論文翻訳(概要): Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models

論文の概要: Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models

arxiv url: http://arxiv.org/abs/2412.18171v1
Date: Tue, 24 Dec 2024 05:10:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.673198
Title: Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models
Title（参考訳）: Token Highlighter: 大規模言語モデルのためのジェイルブレイクプロンプトの検査と修正
Authors: Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho,
Abstract要約: 大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。本稿では,Token Highlighterという手法を提案する。
参考スコア（独自算出の注目度）: 61.916827858666906
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) are increasingly being integrated into services such as ChatGPT to provide responses to user queries. To mitigate potential harm and prevent misuse, there have been concerted efforts to align the LLMs with human values and legal compliance by incorporating various techniques, such as Reinforcement Learning from Human Feedback (RLHF), into the training of the LLMs. However, recent research has exposed that even aligned LLMs are susceptible to adversarial manipulations known as Jailbreak Attacks. To address this challenge, this paper proposes a method called Token Highlighter to inspect and mitigate the potential jailbreak threats in the user query. Token Highlighter introduced a concept called Affirmation Loss to measure the LLM's willingness to answer the user query. It then uses the gradient of Affirmation Loss for each token in the user query to locate the jailbreak-critical tokens. Further, Token Highlighter exploits our proposed Soft Removal technique to mitigate the jailbreak effects of critical tokens via shrinking their token embeddings. Experimental results on two aligned LLMs (LLaMA-2 and Vicuna-V1.5) demonstrate that the proposed method can effectively defend against a variety of Jailbreak Attacks while maintaining competent performance on benign questions of the AlpacaEval benchmark. In addition, Token Highlighter is a cost-effective and interpretable defense because it only needs to query the protected LLM once to compute the Affirmation Loss and can highlight the critical tokens upon refusal.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。潜在的な害を軽減し、誤用を防止するため、LLMのトレーニングにRLHF(Reinforcement Learning from Human Feedback)などの様々な手法を取り入れることで、LLMを人的価値や法的コンプライアンスと整合させる努力が続けられている。しかし、最近の研究では、ILMでさえ、ジェイルブレイク攻撃(英語版)として知られる敵の操作に影響を受けやすいことが明らかにされている。そこで本研究では,Token Highlighterという手法を用いて,ユーザクエリにおける潜在的ジェイルブレイク脅威を検査・緩和する手法を提案する。 Token Highlighter は Affirmation Loss という概念を導入し、LCM がユーザクエリに答える意思を計測した。次に、ユーザクエリの各トークンに対するAffirmation Lossの勾配を使用して、ジェイルブレイククリティカルなトークンを見つける。さらに、Token Highlighterは、提案したソフト除去技術を利用して、トークンの埋め込みを縮小することで、クリティカルトークンのジェイルブレイク効果を軽減する。 2つのLLM(LLaMA-2とVicuna-V1.5)による実験結果から,AlpacaEvalベンチマークの良質な問題に対する有能な性能を維持しつつ,様々なジェイルブレイク攻撃に対して効果的に防御できることが示された。加えて、Token Highlighterは、Affirmation Lossを計算するために保護されたLLMに一度問い合わせるだけで、拒絶時に重要なトークンをハイライトできるため、費用対効果が高く解釈可能な防御である。

関連論文リスト

Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding [19.92751862281067]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。 textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
論文参考訳（メタデータ） (2025-09-13T18:07:56Z)
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文参考訳（メタデータ） (2025-04-02T09:21:26Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。 eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文参考訳（メタデータ） (2024-05-31T07:41:03Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文参考訳（メタデータ） (2024-03-01T03:29:54Z)
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文参考訳（メタデータ） (2024-02-14T06:54:31Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。