論文の概要: AI Safety Training Can be Clinically Harmful
- arxiv url: http://arxiv.org/abs/2604.23445v1
- Date: Sat, 25 Apr 2026 21:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.349152
- Title: AI Safety Training Can be Clinically Harmful
- Title(参考訳): AIの安全性トレーニングは臨床的に有害
- Authors: Suhas BN, Andrew M. Sherrill, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah,
- Abstract要約: 本稿では,250例の長期曝露療法シナリオと146例のCBT認知再構成演習の4つの生成モデルについて検討した。
全てのモデルは表面の承認 (0.91-1.00) でほぼ完璧に得点し、治療適性は4つのモデル中3つの最重度で0.22-0.33に低下した。
- 参考スコア(独自算出の注目度): 15.31927635809423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are being deployed as mental health support agents at scale, yet only 16% of LLM-based chatbot interventions have undergone rigorous clinical efficacy testing, and simulations reveal psychological deterioration in over one-third of cases. We evaluate four generative models on 250 Prolonged Exposure (PE) therapy scenarios and 146 CBT cognitive restructuring exercises (plus 29 severity-escalated variants), scored by a three-judge LLM panel. All models scored near-perfectly on surface acknowledgment (~0.91-1.00) while therapeutic appropriateness collapsed to 0.22-0.33 at the highest severity for three of four models, with protocol fidelity reaching zero for two. Under CBT severity escalation, one model's task completeness dropped from 92% to 71% while the frontier model's safety-interference score fell from 0.99 to 0.61. We identify a systematic, modality-spanning failure: RLHF safety alignment disrupts the therapeutic mechanism of action by grounding patients during imaginal exposure, offering false reassurance, inserting crisis resources into controlled exercises, and refusing to challenge distorted cognitions mentioning self-harm in PE; and through task abandonment or safety-preamble insertion during CBT cognitive restructuring. These findings motivate a five-axis evaluation framework (protocol fidelity, hallucination risk, behavioral consistency, crisis safety, demographic robustness), mapped onto FDA SaMD and EU AI Act requirements. We argue that no AI mental health system should proceed to deployment without passing multi-axis evaluation across all five dimensions.
- Abstract(参考訳): 大規模言語モデルはメンタルヘルスサポートエージェントとして大規模に展開されているが、LSMベースのチャットボット介入のわずか16%が厳格な臨床効果試験を受けており、シミュレーションでは3分の1以上のケースで心理的に悪化している。
我々は,250 Prolonged Exposure (PE) 療法シナリオと146のCBT認知再構成演習(29種類以上の重度エスカレートされた変種)の4つの生成モデルの評価を行った。
全てのモデルは表面の承認 (~0.91-1.00) でほぼ完璧に得点し、治療適性は4つのモデルのうち3つのモデルの中で最重度で0.22-0.33に低下し、プロトコルの忠実度は2つのモデルでゼロになった。
CBTの重度エスカレーションでは、1モデルのタスク完全性は92%から71%に低下し、フロンティアモデルの安全干渉スコアは0.99から0.61に低下した。
RLHFの安全性アライメントは、虚偽の曝露時に患者を接地させ、虚偽の安心を与え、危機資源を制御された運動に挿入し、PEの自傷行為に言及する歪んだ認知に挑戦することを拒否し、CBTの認知再構成中にタスク放棄または安全準備挿入によって、治療のメカニズムを阻害する。
これらの知見は、FDA SaMDとEU AI Actの要件にマッピングされた5軸評価フレームワーク(プロトコルの忠実性、幻覚リスク、行動整合性、危機安全性、人口統計学的堅牢性)を動機付けている。
われわれは、AIのメンタルヘルスシステムが5つの次元にまたがる多軸評価をパスすることなく、展開を進めるべきではないと論じている。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Predicting Neuromodulation Outcome for Parkinson's Disease with Generative Virtual Brain Model [95.41752463487008]
パーキンソン病は世界中で1千万人以上に影響している。
個人間変異は経験的治療の選択を制限し、非無視的な外科的リスクとコストを増大させる。
我々は、このギャップをトレーニング済みのファインタニングフレームワークで埋めて、静止状態fMRIから直接結果を予測する。
論文 参考訳(メタデータ) (2026-03-31T02:36:10Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection [1.90974530523188]
患者シミュレーターは、医療、言語、行動の次元によって異なる現実的で制御可能な患者相互作用を生成する。
シミュレーターにより、アノテータと独立したAI裁判官は、エージェントのパフォーマンスを評価し、幻覚と不正確さを特定し、さまざまな患者集団のリスクパターンを特徴づけることができる。
論文 参考訳(メタデータ) (2026-02-11T21:53:18Z) - SycoEval-EM: Sycophancy Evaluation of Large Language Models in Simulated Clinical Encounters for Emergency Care [2.2245087144264657]
大規模言語モデル (LLM) は, 臨床診断支援において有望であるが, 不適切な治療のために患者に圧力をかけるリスクがある。
シコエバルEM(SycoEval-EM)は,患者を説得し,頑健性を評価するマルチエージェント・シミュレーション・フレームワークである。
論文 参考訳(メタデータ) (2026-01-23T08:01:39Z) - HARBOR: Holistic Adaptive Risk assessment model for BehaviORal healthcare [4.268975608471992]
本稿では,個別の気分とリスクスコアを予測するための行動型健康意識言語モデルであるHARBORを紹介する。
PEARLは,3症例の4年間の月次観察を対象とする縦断的行動医療データセットである。
論文 参考訳(メタデータ) (2025-12-21T17:27:10Z) - Breast Cancer Recurrence Risk Prediction Based on Multiple Instance Learning [0.0]
本研究は,HematoxylinおよびEosinstened whole-slide image(WSIs)を用いた深層学習における計算病理の可能性について検討する。
CLAM-SB, ABMIL, ConvNeXt-MIL-XGBoostの3つのマルチインスタンス学習フレームワークを, 210症例の社内データセット上で開発・比較した。
5倍のクロスバリデーションでは、改良されたCLAM-SBモデルが最も高い性能を示し、平均曲線下面積(AUC)は0.836で、分類精度は76.2%であった。
論文 参考訳(メタデータ) (2025-12-21T13:46:50Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。