論文の概要: Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs
- arxiv url: http://arxiv.org/abs/2508.16347v1
- Date: Fri, 22 Aug 2025 12:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.383878
- Title: Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs
- Title(参考訳): 融合は最終障壁: 脱獄評価を再考し、LLMの本当の誤用を調査する
- Authors: Yu Yan, Sheng Sun, Zhe Wang, Yijun Lin, Zenghao Duan, zhifei zheng, Min Liu, Zhiyi yin, Jianping Zhang,
- Abstract要約: 本研究では, 危険知識保持, 有害タスク計画ユーティリティ, 有害性判定の観点から, 大規模言語モデル(LLM)の誤用脅威について検討した。
実験では、脱獄の成功率と LLM における有害な知識保持のミスマッチが明らかとなり、既存の LLM-as-a-judge フレームワークは有害な言語パターンに対する有害な判断を抑える傾向にある。
- 参考スコア(独自算出の注目度): 16.95831588112687
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the development of Large Language Models (LLMs), numerous efforts have revealed their vulnerabilities to jailbreak attacks. Although these studies have driven the progress in LLMs' safety alignment, it remains unclear whether LLMs have internalized authentic knowledge to deal with real-world crimes, or are merely forced to simulate toxic language patterns. This ambiguity raises concerns that jailbreak success is often attributable to a hallucination loop between jailbroken LLM and judger LLM. By decoupling the use of jailbreak techniques, we construct knowledge-intensive Q\&A to investigate the misuse threats of LLMs in terms of dangerous knowledge possession, harmful task planning utility, and harmfulness judgment robustness. Experiments reveal a mismatch between jailbreak success rates and harmful knowledge possession in LLMs, and existing LLM-as-a-judge frameworks tend to anchor harmfulness judgments on toxic language patterns. Our study reveals a gap between existing LLM safety assessments and real-world threat potential.
- Abstract(参考訳): LLM(Large Language Models)の開発により、ジェイルブレイク攻撃に対する脆弱性が明らかになった。
これらの研究は、LLMの安全性向上を推進しているが、LLMが現実世界の犯罪に対処するための真正の知識を内包しているか、あるいは単に有害な言語パターンをシミュレートするだけなのかは不明だ。
この曖昧さは、ジェイルブレイクの成功は、しばしばジェイルブレイクLLMと審査員LLMの間の幻覚ループに起因するという懸念を提起する。
ジェイルブレイク技術の使用を分離することにより,危険知識保持,有害タスク計画ユーティリティ,有害性判定の堅牢性の観点から,LLMの誤用を調査するために,知識集約型Q&Aを構築する。
実験では、脱獄の成功率と LLM における有害な知識保持のミスマッチが明らかとなり、既存の LLM-as-a-judge フレームワークは有害な言語パターンに対する有害な判断を抑える傾向にある。
本研究は,既存のLCMの安全性評価と現実世界の脅威ポテンシャルのギャップを明らかにするものである。
関連論文リスト
- How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。