論文の概要: Safety and accuracy follow different scaling laws in clinical large language models
- arxiv url: http://arxiv.org/abs/2605.04039v1
- Date: Tue, 05 May 2026 17:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.074764
- Title: Safety and accuracy follow different scaling laws in clinical large language models
- Title(参考訳): 臨床大言語モデルにおける異なるスケーリング法則に従う安全性と精度
- Authors: Sebastian Wind, Tri-Thien Nguyen, Jeta Sopa, Mahshad Lotfinia, Sebastian Bickelhaup, Michael Uder, Harald Köstler, Gerhard Wellein, Sven Nebelung, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: RadSaFE-200は、臨床医が定義したクリーンエビデンス、競合するエビデンス、リスクの高いエラー、安全でない答え、エビデンスに対するオプションレベルのラベルを含む200の多重選択質問のベンチマークである。
クリーンエビデンスにより、平均精度は73.5%から94.1%に向上し、ハイリスクエラーは12.0%から2.6%に減少した。
標準RAGとエージェントRAGはこの安全プロファイルを再現しなかったが、リスクの高いエラーと危険な過信は高いままであった。
- 参考スコア(独自算出の注目度): 4.212844425331427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical LLMs are often scaled by increasing model size, context length, retrieval complexity, or inference-time compute, with the implicit expectation that higher accuracy implies safer behavior. This assumption is incomplete in medicine, where a few confident, high-risk, or evidence-contradicting errors can matter more than average benchmark performance. We introduce SaFE-Scale, a framework for measuring how clinical LLM safety changes across model scale, evidence quality, retrieval strategy, context exposure, and inference-time compute. To instantiate this framework, we introduce RadSaFE-200, a Radiology Safety-Focused Evaluation benchmark of 200 multiple-choice questions with clinician-defined clean evidence, conflict evidence, and option-level labels for high-risk error, unsafe answer, and evidence contradiction. We evaluated 34 locally deployed LLMs across six deployment conditions: closed-book prompting (zero-shot), clean evidence, conflict evidence, standard RAG, agentic RAG, and max-context prompting. Clean evidence produced the strongest improvement, increasing mean accuracy from 73.5% to 94.1%, while reducing high-risk error from 12.0% to 2.6%, contradiction from 12.7% to 2.3%, and dangerous overconfidence from 8.0% to 1.6%. Standard RAG and agentic RAG did not reproduce this safety profile: agentic RAG improved accuracy over standard RAG and reduced contradiction, but high-risk error and dangerous overconfidence remained elevated. Max-context prompting increased latency without closing the safety gap, and additional inference-time compute produced only limited gains. Worst-case analysis showed that clinically consequential errors concentrated in a small subset of questions. Clinical LLM safety is therefore not a passive consequence of scaling, but a deployment property shaped by evidence quality, retrieval design, context construction, and collective failure behavior.
- Abstract(参考訳): 臨床LSMは、モデルのサイズ、文脈長、検索の複雑さ、あるいは推論時間計算を増大させることで拡張されることが多く、より高い精度でより安全な行動が期待できる。
この仮定は医学では不完全であり、いくつかの信頼性、高リスク、エビデンス・コントラクトのエラーが平均ベンチマークのパフォーマンスよりも重要である。
SFE-Scaleは、モデルスケール、エビデンス品質、検索戦略、コンテキスト露光、推論時間計算における臨床LSMの安全性の変化を測定するためのフレームワークである。
本稿では,RadSaFE-200,RadSaFE-200を紹介する。RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadS aFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,RadSaFE-200,R。
我々は, クローズドブックプロンプト(ゼロショット), クリーンエビデンス, コンフリクトエビデンス, 標準RAG, エージェントRAG, 最大コンテクストプロンプトの6つの配置条件で34個のLLMを評価した。
クリーンな証拠により、平均精度は73.5%から94.1%に向上し、ハイリスクエラーは12.0%から2.6%に、矛盾は12.7%から2.3%に、危険な過信は8.0%から1.6%に減少した。
標準RAGとエージェントRAGは安全プロファイルを再現しなかった: エージェントRAGは標準RAGよりも精度を向上し、矛盾を低減したが、高いリスクエラーと危険な過信は高いままであった。
最大コンテキストは安全性のギャップを埋めることなく遅延を増大させ、追加の推論時間計算は限られた利得しか得られなかった。
最悪のケース分析では、臨床的に連続的なエラーは質問の小さなサブセットに集中していた。
したがって、臨床LSMの安全性はスケーリングのパッシブな結果ではなく、エビデンス品質、検索設計、コンテキスト構築、集合的障害行動によって形成されたデプロイメント特性である。
関連論文リスト
- Improving Model Safety by Targeted Error Correction [10.82789277277678]
二重分類器GBDTパイプラインを導入し,高リスクな非人間の誤分類から人間のような誤りを識別する。
動物データセットでは1.60%,ISICでは1.84%,SICAPv2では1.70%)。
ISICでは34.1%,SICAPv2では12.57%の危険な非人間的誤りを減らした。
論文 参考訳(メタデータ) (2026-05-04T12:47:41Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models [35.441039437111606]
URAGは、医療、プログラミング、科学、数学、一般的なテキストなど、さまざまな分野にわたるRAGシステムの不確実性を評価するために設計されたベンチマークである。
評価パイプラインを8つの標準RAG手法に適用し,LACとAPSの計測値に基づいて,精度と予測セットのサイズを両立させ,その性能を計測する。
論文 参考訳(メタデータ) (2026-03-02T00:22:06Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation [5.469454486414467]
大言語モデル (LLMs) は脊椎手術における臨床的決定支援の転換的可能性を提供する。
LLMは幻覚を通じて重大なリスクを引き起こすが、これは事実的に矛盾しているか、文脈的に不一致な出力である。
本研究は, 診断精度, 推奨品質, 推理堅牢性, 出力コヒーレンス, 知識アライメントを評価することによって, 幻覚リスクを定量化するための臨床中心の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-01T15:25:55Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。