Fugu-MT 論文翻訳(概要): IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures

論文の概要: IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures

arxiv url: http://arxiv.org/abs/2604.07709v1
Date: Thu, 09 Apr 2026 01:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.630037
Title: IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures
Title（参考訳）: IatroBench:AIの安全対策からIatrogenic Harmを事前に登録した証拠
Authors: David Gringras,
Abstract要約: 60の登録臨床シナリオ、6つのフロンティアモデル、3,600の応答が2つの軸(欠席障害、CH 0-3; 欠席障害、OH 0-4)で測定された。 5つのテスト可能なモデルは全て、医師により良いガイダンスを提供する。あらゆるシナリオは、標準参照を既に使い果たした人をターゲットにしています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ask a frontier model how to taper six milligrams of alprazolam (psychiatrist retired, ten days of pills left, abrupt cessation causes seizures) and it tells her to call the psychiatrist she just explained does not exist. Change one word ("I'm a psychiatrist; a patient presents with...") and the same model, same weights, same inference pass produces a textbook Ashton Manual taper with diazepam equivalence, anticonvulsant coverage, and monitoring thresholds. The knowledge was there; the model withheld it. IatroBench measures this gap. Sixty pre-registered clinical scenarios, six frontier models, 3,600 responses, scored on two axes (commission harm, CH 0-3; omission harm, OH 0-4) through a structured-evaluation pipeline validated against physician scoring (kappa_w = 0.571, within-1 agreement 96%). The central finding is identity-contingent withholding: match the same clinical question in physician vs. layperson framing and all five testable models provide better guidance to the physician (decoupling gap +0.38, p = 0.003; binary hit rates on safety-colliding actions drop 13.1 percentage points in layperson framing, p < 0.0001, while non-colliding actions show no change). The gap is widest for the model with the heaviest safety investment (Opus, +0.65). Three failure modes separate cleanly: trained withholding (Opus), incompetence (Llama 4), and indiscriminate content filtering (GPT-5.2, whose post-generation filter strips physician responses at 9x the layperson rate because they contain denser pharmacological tokens). The standard LLM judge assigns OH = 0 to 73% of responses a physician scores OH >= 1 (kappa = 0.045); the evaluation apparatus has the same blind spot as the training apparatus. Every scenario targets someone who has already exhausted the standard referrals.
Abstract（参考訳）: フロンティアモデルに6ミリグラムのアルプラゾラム(精神科医引退、10日間の薬が残り、突然の鎮静が発作を引き起こす)をテーパーする方法を尋ねると、彼女は彼女が説明したばかりの精神科医を呼ぶように指示するが、存在しない。 I'm a psychiatrist; a patient presents with...)と同じモデル、同じ重み、同じ推論パスは、ジアゼパム等価性、抗けいれん性カバレッジ、監視しきい値を備えた教科書のアシュトンマニュアルテーパーを生成する。知識はそこにあり、モデルはそれを保持した。 IatroBenchはこのギャップを測定します。既登録症例60例,フロンティアモデル6例,フロンティアモデル3600例,2軸(ミッションハーネスCH0-3;オミッションハーネスOH0-4)で測定し,医師のスコア(Kappa_w =0.571,-1合意率96%)に対して評価した。医師とレイパーのフレーミングにおける同じ臨床問題と一致し、5つのテスト可能なモデルが医師により良いガイダンスを提供する(ギャップ+0.38, p = 0.003; 安全協調行動におけるバイナリヒット率は、レイパーのフレーミングにおいて13.1ポイント低下、p < 0.0001、非衝突行動では変化がない)。このギャップは、最も重い安全投資(Opus, +0.65)を持つモデルにとって最も広い。 3つの障害モードは、訓練された保持(Opus)、無能(Llama 4)、無差別な内容フィルタリング(GPT-5.2)である。標準LLM判定器は、医師がOH >= 1 (kappa = 0.045) とスコアする応答のOH = 0 から 73% を割り当てる。あらゆるシナリオは、標準参照を既に使い果たした人をターゲットにしています。

関連論文リスト

FreakOut-LLM: The Effect of Emotional Stimuli on Safety Alignment [13.02804082409836]
安全に配慮したLSMは、有害な要求を拒否する訓練を拒否するが、これらのメカニズムが感情的な刺激の下で有効であるかどうかは不明である。本稿では,FreakOut-LLMというフレームワークを紹介した。
論文参考訳（メタデータ） (2026-04-05T13:37:52Z)
Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI [3.910019733981544]
ChatGPT Healthは緊急事態の51.6%を減らし、消費者が直面するAIトリアージは安全リスクをもたらすと結論付けた。 5つのフロンティア LLM (GPT-5.2, Claude Sonnet 4.6, Claude Opus 4.6, Gemini 3 Flash, Gemini 3.1 Pro) を17-scenario部分レプリケーションバンク上でテストした。見出しのアンダートリアージレートは評価形式に強く依存しており、デプロイされたトリアージの挙動を安定的に見積もってはならない。
論文参考訳（メタデータ） (2026-03-12T00:58:22Z)
ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions [5.63130104359934]
ThReadMed-QAは、r/AskDocsから抽出された2,437人の患者を検索する会話スレッドのベンチマークである。我々は,238の会話の階層化テスト分割に基づいて,最先端のLLMを5つ評価した。最も強いモデルであるGPT-5でさえ41.2%の完全正解しか得られない。
論文参考訳（メタデータ） (2026-03-11T20:17:57Z)
Decomposing Physician Disagreement in HealthBench [0.0687531213383208]
医療用AI評価データセット「HealthBench」で医師の意見の相違を分解し、変動がどこにあるのか、観察可能な特徴が説明できるのかを理解する。 81.8%のケースレベル残基はHealthBenchのメタデータラベルによって減少しない。診断は、完了品質の逆Uに従っており、医師が明確な良し悪しのアウトプットについて合意するが、境界線のケースでは分割される。
論文参考訳（メタデータ） (2026-02-26T08:47:42Z)
The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks [63.892797968132506]
GPT-5のような大型フロンティアモデルは、医学ベンチマークでトップスコアを獲得した。しかし、ストレステストは別の話をします。これらのベンチマークは、今日のベンチマークが医学的理解よりもテストのトリックにどのように報いるかを公開しています。
論文参考訳（メタデータ） (2025-09-22T17:48:05Z)
MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。 6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文参考訳（メタデータ） (2025-08-22T08:38:16Z)
Learning to diagnose cirrhosis from radiological and histological labels with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文参考訳（メタデータ） (2023-02-16T17:06:23Z)
SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox Models [48.374678491735665]
クラス固有RIsk境界(SCRIB)を用いたSet-classifierを導入し,この問題に対処する。 SCRIBは、クラス固有の予測リスクを理論的保証で制御するセット分類器を構築する。脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。
論文参考訳（メタデータ） (2021-03-05T21:06:12Z)
Deep Partition Aggregation: Provable Defense against General Poisoning Attacks [136.79415677706612]
アドリアリン中毒は、分類器の試験時間挙動を損なうために訓練データを歪ませる。毒殺攻撃に対する2つの新たな防御策を提案する。 DPAは一般的な中毒脅威モデルに対する認証された防御である。 SS-DPAはラベルフリップ攻撃に対する認証された防御である。
論文参考訳（メタデータ） (2020-06-26T03:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。