論文の概要: Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking
- arxiv url: http://arxiv.org/abs/2601.12652v1
- Date: Mon, 19 Jan 2026 01:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.723948
- Title: Ethical Risks in Deploying Large Language Models: An Evaluation of Medical Ethics Jailbreaking
- Title(参考訳): 大規模言語モデルの展開における倫理的リスク:医療倫理的脱獄の評価
- Authors: Chutian Huang, Dake Cao, Jiacheng Ji, Yunlou Fan, Chengze Yan, Hanhui Xu,
- Abstract要約: 悪質なプロンプトエンジニアリング、特に「ジェイルブレイク攻撃」は、内部の安全メカニズムをバイパスするためにモデルを誘導することで深刻なセキュリティリスクを引き起こす。
現在のベンチマークは主に公共の安全と西洋の文化規範に焦点を当てており、中国の文脈におけるニッチでリスクの高い医療倫理の領域を評価する上で重要なギャップを残している。
我々は,DeepInceptionフレームワーク内の7つの著名なモデル(GPT-5,Claude-Sonnet-4-Reasoning,DeepSeek-R1)を「ロールプレイング+シナリオシミュレーション+マルチターン対話」ベクトルを用いて評価した。
- 参考スコア(独自算出の注目度): 0.49259062564301753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: While Large Language Models (LLMs) have achieved widespread adoption, malicious prompt engineering specifically "jailbreak attacks" poses severe security risks by inducing models to bypass internal safety mechanisms. Current benchmarks predominantly focus on public safety and Western cultural norms, leaving a critical gap in evaluating the niche, high-risk domain of medical ethics within the Chinese context. Objective: To establish a specialized jailbreak evaluation framework for Chinese medical ethics and to systematically assess the defensive resilience and ethical alignment of seven prominent LLMs when subjected to sophisticated adversarial simulations. Methodology: We evaluated seven prominent models (e.g., GPT-5, Claude-Sonnet-4-Reasoning, DeepSeek-R1) using a "role-playing + scenario simulation + multi-turn dialogue" vector within the DeepInception framework. The testing focused on eight high-risk themes, including commercial surrogacy and organ trading, utilizing a hierarchical scoring matrix to quantify the Attack Success Rate (ASR) and ASR Gain. Results: A systemic collapse of defenses was observed, whereas models demonstrated high baseline compliance, the jailbreak ASR reached 82.1%, representing an ASR Gain of over 80 percentage points. Claude-Sonnet-4-Reasoning emerged as the most robust model, while five models including Gemini-2.5-Pro and GPT-4.1 exhibited near-total failure with ASRs between 96% and 100%. Conclusions: Current LLMs are highly vulnerable to contextual manipulation in medical ethics, often prioritizing "helpfulness" over safety constraints. To enhance security, we recommend a transition from outcome to process supervision, the implementation of multi-factor identity verification, and the establishment of cross-model "joint defense" mechanisms.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)は広く採用されているが、悪質なプロンプトエンジニアリングである"ジェイルブレイク攻撃"は、内部の安全メカニズムをバイパスするためにモデルを誘導することによって、深刻なセキュリティリスクを引き起こす。
現在のベンチマークは主に公共の安全と西洋の文化規範に焦点を当てており、中国の文脈におけるニッチでリスクの高い医療倫理の領域を評価する上で重要なギャップを残している。
目的:中国医学倫理の専門的ジェイルブレイク評価枠組みを確立し,高度な対人シミュレーションを受けると,7つの著名なLCMの防御的弾力性と倫理的アライメントを体系的に評価する。
方法論:我々は,DeepInceptionフレームワーク内の「ロールプレイング+シナリオシミュレーション+マルチターン対話」ベクトルを用いて,7つの顕著なモデル(GPT-5,Claude-Sonnet-4-Reasoning,DeepSeek-R1)を評価した。
テストは、商業的代理や臓器取引を含む8つのリスクの高いテーマに焦点を当て、階層的なスコアリングマトリックスを使用してアタック成功率(ASR)とASRゲインを定量化した。
結果: 防衛のシステム的崩壊が観察され, ベースラインコンプライアンスの高いモデルが得られたが, ジェイルブレイクASRは82.1%に達し, ASRの上昇率は80パーセントを超えた。
Claude-Sonnet-4-Reasoning が最も頑丈なモデルとして登場し、Gemini-2.5-Pro や GPT-4.1 を含む5つのモデルでは、ASR が 96% から 100% に近づいた。
結論:現在のLLMは、医療倫理における文脈的操作に対して非常に脆弱であり、しばしば安全上の制約よりも「ヘルパフルネス」を優先している。
セキュリティを高めるため、結果からプロセス管理への移行、多要素認証の実装、およびクロスモデル「ジョイントディフェンス」機構の確立を推奨する。
関連論文リスト
- Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Exploring the Secondary Risks of Large Language Models [26.00748215572094]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。