論文の概要: One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07167v1
- Date: Mon, 12 May 2025 01:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.235713
- Title: One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安全性とユーザビリティのバランスをとるための防衛戦略
- Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin,
- Abstract要約: 大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
- 参考スコア(独自算出の注目度): 20.42976162135529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been extensively used across diverse domains, including virtual assistants, automated code generation, and scientific research. However, they remain vulnerable to jailbreak attacks, which manipulate the models into generating harmful responses despite safety alignment. Recent studies have shown that current safety-aligned LLMs often undergo the shallow safety alignment, where the first few tokens largely determine whether the response will be harmful. Through comprehensive observations, we find that safety-aligned LLMs and various defense strategies generate highly similar initial tokens in their refusal responses, which we define as safety trigger tokens. Building on this insight, we propose \texttt{D-STT}, a simple yet effective defense algorithm that identifies and explicitly decodes safety trigger tokens of the given safety-aligned LLM to trigger the model's learned safety patterns. In this process, the safety trigger is constrained to a single token, which effectively preserves model usability by introducing minimum intervention in the decoding process. Extensive experiments across diverse jailbreak attacks and benign prompts demonstrate that \ours significantly reduces output harmfulness while preserving model usability and incurring negligible response time overhead, outperforming ten baseline methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
しかし、安全アライメントにもかかわらず、モデルを操作して有害な応答を発生させるジェイルブレイク攻撃には弱いままである。
近年の研究では、現在の安全アライメント LLM は、しばしば浅い安全アライメントを受けており、最初の数個のトークンが反応が有害かどうかを決定づけている。
包括的観察により,安全対応 LLM と各種防衛戦略は,その拒絶応答において非常に類似した初期トークンを生成し,安全トリガートークンと定義する。
この知見に基づいて、モデルが学習した安全パターンをトリガーするために、与えられた安全対応 LLM の安全トリガートークンを特定し、明示的に復号する、シンプルで効果的な防御アルゴリズムである \texttt{D-STT} を提案する。
このプロセスでは、安全トリガーを単一トークンに制限し、デコードプロセスに最小限の介入を導入することにより、モデル使用性を効果的に維持する。
多様なjailbreak攻撃や良心的なプロンプトに対する大規模な実験では、モデル使用性を維持しながら出力の有害性を著しく低減し、無視可能な応答時間オーバーヘッドを発生させ、10のベースラインメソッドより優れていたことが示されている。
関連論文リスト
- Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。
性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。
最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。