論文の概要: Between a Rock and a Hard Place: Exploiting Ethical Reasoning to Jailbreak LLMs
- arxiv url: http://arxiv.org/abs/2509.05367v1
- Date: Thu, 04 Sep 2025 05:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.467302
- Title: Between a Rock and a Hard Place: Exploiting Ethical Reasoning to Jailbreak LLMs
- Title(参考訳): 岩と硬い場所:脱獄LSMへの倫理的推論を爆発させる
- Authors: Shei Pern Chua, Thai Zhen Leng, Teh Kai Jun, Xiao Li, Xiaolin Hu,
- Abstract要約: 本稿では,TLMの倫理的推論を利用して安全を回避するためのフレームワークであるTRIAL(Trolley-problem Reasoning for Interactive Attack Logic)を紹介する。
TRIALは、オープンソースモデルとオープンソースモデルの両方に対して、高いジェイルブレイク成功率を示している。
モデルが高度な推論能力を得るにつれ、そのアライメントの性質は必然的に、より秘密のセキュリティ脆弱性を悪用することを可能にするかもしれない。
- 参考スコア(独自算出の注目度): 18.480522540451858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have undergone safety alignment efforts to mitigate harmful outputs. However, as LLMs become more sophisticated in reasoning, their intelligence may introduce new security risks. While traditional jailbreak attacks relied on singlestep attacks, multi-turn jailbreak strategies that adapt dynamically to context remain underexplored. In this work, we introduce TRIAL (Trolley-problem Reasoning for Interactive Attack Logic), a framework that leverages LLMs ethical reasoning to bypass their safeguards. TRIAL embeds adversarial goals within ethical dilemmas modeled on the trolley problem. TRIAL demonstrates high jailbreak success rates towards both open and close-source models. Our findings underscore a fundamental limitation in AI safety: as models gain advanced reasoning abilities, the nature of their alignment may inadvertently allow for more covert security vulnerabilities to be exploited. TRIAL raises an urgent need in reevaluating safety alignment oversight strategies, as current safeguards may prove insufficient against context-aware adversarial attack.
- Abstract(参考訳): 大規模言語モデル (LLM) は有害な出力を軽減すべく安全アライメントの取り組みを行っている。
しかし、LSMが推論において洗練されるにつれて、その知性は新たなセキュリティリスクをもたらす可能性がある。
従来のジェイルブレイク攻撃はシングルステップ攻撃に依存していたが、コンテキストに動的に適応するマルチターンジェイルブレイク戦略は未検討のままである。
本研究では,LLMの倫理的推論を利用して安全を回避したフレームワークであるTRIAL(Trolley-problem Reasoning for Interactive Attack Logic)を紹介する。
TRIALはトロリー問題に基づく倫理ジレンマに敵の目標を組み込む。
TRIALは、オープンソースモデルとオープンソースモデルの両方に対して、高いジェイルブレイク成功率を示している。
モデルが高度な推論能力を得るにつれて、そのアライメントの性質は必然的に、より機密性の高いセキュリティ脆弱性を悪用する可能性がある。
TRIALは、現在の安全対策がコンテキスト対応の敵攻撃に対して不十分であることを証明しているため、安全アライメント監視戦略の再評価に緊急の必要性を高めている。
関連論文リスト
- CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations [9.952498288063532]
セキュリティアライメントにより、Large Language Model(LLM)は悪意のあるクエリに対する保護を得ることができる。
LLMのセキュリティ保護機構を解析し,攻撃と防御を組み合わせた枠組みを提案する。
本手法は, LLM中間層埋め込みの線形分離性, およびジェイルブレイク攻撃の本質に基づく。
論文 参考訳(メタデータ) (2025-07-08T14:45:21Z) - Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文 参考訳(メタデータ) (2025-05-21T16:58:14Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。
ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。
我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。