論文の概要: `For Argument's Sake, Show Me How to Harm Myself!': Jailbreaking LLMs in Suicide and Self-Harm Contexts
- arxiv url: http://arxiv.org/abs/2507.02990v1
- Date: Tue, 01 Jul 2025 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.506246
- Title: `For Argument's Sake, Show Me How to Harm Myself!': Jailbreaking LLMs in Suicide and Self-Harm Contexts
- Title(参考訳): 「Argument's Sake, Show Me How to Harm Myself!
- Authors: Annika M Schoene, Cansu Canca,
- Abstract要約: i)自殺と(ii)自傷の2つの新たな精神健康検査例について,多段階,即時的ジェイルブレイク,ビルトインコンテントと安全フィルタを併用した検討を行った。
ユーザ意図は無視されており、現実世界に害をもたらす可能性のある詳細な有害なコンテンツや指示が生み出されることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to increasingly sophisticated safety protocols and features designed to prevent harmful, unethical, or unauthorized outputs. However, these guardrails remain susceptible to novel and creative forms of adversarial prompting, including manually generated test cases. In this work, we present two new test cases in mental health for (i) suicide and (ii) self-harm, using multi-step, prompt-level jailbreaking and bypass built-in content and safety filters. We show that user intent is disregarded, leading to the generation of detailed harmful content and instructions that could cause real-world harm. We conduct an empirical evaluation across six widely available LLMs, demonstrating the generalizability and reliability of the bypass. We assess these findings and the multilayered ethical tensions that they present for their implications on prompt-response filtering and context- and task-specific model development. We recommend a more comprehensive and systematic approach to AI safety and ethics while emphasizing the need for continuous adversarial testing in safety-critical AI deployments. We also argue that while certain clearly defined safety measures and guardrails can and must be implemented in LLMs, ensuring robust and comprehensive safety across all use cases and domains remains extremely challenging given the current technical maturity of general-purpose LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、有害、非倫理的、または不正な出力を防ぐために設計された、より洗練された安全プロトコルと機能を生み出している。
しかしながら、これらのガードレールは、手動で生成されたテストケースを含む、新規で創造的な敵のプロンプトに影響を受けやすいままである。
本研究では,精神保健における新たな2つの事例について紹介する。
(i)自殺・自殺
(二)自己修復、マルチステップ、プロンプトレベルのジェイルブレイク、内蔵コンテンツと安全フィルタのバイパス。
ユーザ意図は無視されており、現実世界に害をもたらす可能性のある詳細な有害なコンテンツや指示が生み出されることを示します。
我々は,広範に利用可能なLLMを6つに分けて実証評価を行い,バイパスの一般化可能性と信頼性を実証した。
本研究は,これらの知見と,それらが提示する多層的緊張感が,迅速な応答フィルタリングやコンテキスト・タスク特化モデル開発に与える影響について評価する。
我々は、AIの安全性と倫理に対するより包括的で体系的なアプローチを推奨すると同時に、安全クリティカルなAIデプロイメントにおける継続的な敵テストの必要性を強調します。
また、特定の明確な安全対策やガードレールがLLMに実装可能でなければならないが、汎用LLMの現在の技術成熟度を考えれば、すべてのユースケースやドメインにわたって堅牢で包括的な安全を確保することは極めて困難である。
関連論文リスト
- ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures [17.9033567125575]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、セキュリティに対する懸念が高まっている。
ジェイルブレイク攻撃は、過度に有害なクエリの下での失敗を浮き彫りにするが、彼らは重大なリスクを見落としている。
我々は,高リスク領域を明らかにすることで,出力の事実性と入力の無害性に基づいて,構造化された二次的な視点でLLMリスク景観を体系的に再構築する。
論文 参考訳(メタデータ) (2025-06-09T03:52:43Z) - Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。
LLMの安全性を評価するための2次元フレームワークを提案する。
暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文 参考訳(メタデータ) (2025-06-03T05:00:12Z) - Security Concerns for Large Language Models: A Survey [3.175227858236288]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
我々は,LSMに関する新たなセキュリティ上の懸念の包括的概要,迅速な注射と脱獄への脅威の分類,入力の摂動やデータ中毒などの敵攻撃,および自律型LSMエージェントに固有の厄介なリスクについて述べる。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。