論文の概要: Self-HarmLLM: Can Large Language Model Harm Itself?
- arxiv url: http://arxiv.org/abs/2511.08597v1
- Date: Fri, 31 Oct 2025 02:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.067536
- Title: Self-HarmLLM: Can Large Language Model Harm Itself?
- Title(参考訳): Self-HarmLLM: 大規模言語モデルは自分自身でハームできるか?
- Authors: Heehwan Kim, Sungjune Park, Daeseon Choi,
- Abstract要約: 我々は、新しい入力と同じモデルで生成されたMHQ(Mitigated Harmful Query)を利用するSelf-HarmLLMシナリオを提案する。
GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, Few-shot conditions。
- 参考スコア(独自算出の注目度): 10.208363125551555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are generally equipped with guardrails to block the generation of harmful responses. However, existing defenses always assume that an external attacker crafts the harmful query, and the possibility of a model's own output becoming a new attack vector has not been sufficiently explored. In this study, we propose the Self-HarmLLM scenario, which uses a Mitigated Harmful Query (MHQ) generated by the same model as a new input. An MHQ is an ambiguous query whose original intent is preserved while its harmful nature is not directly exposed. We verified whether a jailbreak occurs when this MHQ is re-entered into a separate session of the same model. We conducted experiments on GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, and Few-shot conditions. The results showed up to 52% transformation success rate and up to 33% jailbreak success rate in the Zero-shot condition, and up to 65% transformation success rate and up to 41% jailbreak success rate in the Few-shot condition. By performing both prefix-based automated evaluation and human evaluation, we found that the automated evaluation consistently overestimated jailbreak success, with an average difference of 52%. This indicates that automated evaluation alone is not accurate for determining harmfulness. While this study is a toy-level study based on a limited query set and evaluators, it proves that our method can still be a valid attack scenario. These results suggest the need for a fundamental reconsideration of guardrail design and the establishment of a more robust evaluation methodology.
- Abstract(参考訳): 大規模言語モデル(LLM)は一般的に、有害な応答の発生を阻止するガードレールを備えている。
しかし、既存の防御策では、外部攻撃者が有害なクエリを作成し、モデル自身の出力が新たな攻撃ベクトルになる可能性については十分に調査されていないと仮定している。
本研究では,新しい入力モデルと同じモデルで生成されたMHQ(Mitigated Harmful Query)を用いたSelf-HarmLLMシナリオを提案する。
MHQは、本来の意図が保存され、有害な性質が直接露呈されない曖昧なクエリである。
我々は、このMHQが同じモデルの別のセッションに再入力されたときに、ジェイルブレイクが発生するかどうかを確認した。
GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, Few-shot conditions。
その結果、ゼロショット状態では最大52%の変換成功率、最大33%のジェイルブレイク成功率、フルショット状態では最大65%の変換成功率、最大41%のジェイルブレイク成功率が得られた。
また,プレフィックスによる自動評価と人的評価を併用することにより,自動評価が連続的にジェイルブレイクの成功を過大評価し,平均差は52%であった。
これは、自動評価だけで有害性を決定するには正確ではないことを示している。
本研究は,限られたクエリセットと評価器に基づく玩具レベルの研究であるが,本手法が有効な攻撃シナリオであることを証明している。
これらの結果から,ガードレール設計の根本的な再検討と,より堅牢な評価手法の確立の必要性が示唆された。
関連論文リスト
- JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring [45.76641811031552]
本稿では,JADES(Jailbreak Assessment via Decompositional Scoring)について紹介する。
その鍵となるメカニズムは、入力された有害な質問を一連の重み付けされたサブ問合せに自動的に分解し、各サブ問合せをスコアし、サブスコアを最終決定に重み付けすることである。
JADES on JailbreakQRは400対のjailbreakプロンプトと応答からなる新しいベンチマークで、それぞれが人間によって細心の注意を払って注釈付けされている。
論文 参考訳(メタデータ) (2025-08-28T14:40:27Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。