論文の概要: Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
- arxiv url: http://arxiv.org/abs/2508.00923v1
- Date: Wed, 30 Jul 2025 08:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.627877
- Title: Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models
- Title(参考訳): ベンチマークを超えて:信頼できる医療用言語モデルのための動的で自動的で体系的なレッドチームエージェント
- Authors: Jiazhen Pan, Bailiang Jian, Paul Hager, Yundi Zhang, Che Liu, Friedrike Jungmann, Hongwei Bran Li, Chenyu You, Junde Wu, Jiayuan Zhu, Fenglin Liu, Yuyuan Liu, Niklas Bubeck, Christian Wachinger, Chen, Chen, Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert,
- Abstract要約: 大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
- 参考スコア(独自算出の注目度): 87.66870367661342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety and reliability of large language models (LLMs) in clinical practice is critical to prevent patient harm and promote trustworthy healthcare applications of AI. However, LLMs are advancing so rapidly that static safety benchmarks often become obsolete upon publication, yielding only an incomplete and sometimes misleading picture of model trustworthiness. We demonstrate that a Dynamic, Automatic, and Systematic (DAS) red-teaming framework that continuously stress-tests LLMs can reveal significant weaknesses of current LLMs across four safety-critical domains: robustness, privacy, bias/fairness, and hallucination. A suite of adversarial agents is applied to autonomously mutate test cases, identify/evolve unsafe-triggering strategies, and evaluate responses, uncovering vulnerabilities in real time without human intervention. Applying DAS to 15 proprietary and open-source LLMs revealed a stark contrast between static benchmark performance and vulnerability under adversarial pressure. Despite a median MedQA accuracy exceeding 80\%, 94\% of previously correct answers failed our dynamic robustness tests. We observed similarly high failure rates across other domains: privacy leaks were elicited in 86\% of scenarios, cognitive-bias priming altered clinical recommendations in 81\% of fairness tests, and we identified hallucination rates exceeding 66\% in widely used models. Such profound residual risks are incompatible with routine clinical practice. By converting red-teaming from a static checklist into a dynamic stress-test audit, DAS red-teaming offers the surveillance that hospitals/regulators/technology vendors require as LLMs become embedded in patient chatbots, decision-support dashboards, and broader healthcare workflows. Our framework delivers an evolvable, scalable, and reliable safeguard for the next generation of medical AI.
- Abstract(参考訳): 臨床実践における大きな言語モデル(LLM)の安全性と信頼性を確保することは、患者の危害を予防し、AIの信頼できる医療応用を促進するために重要である。
しかし、LSMは急速に進歩しており、静的安全性ベンチマークは出版時に時代遅れになることが多く、不完全で時にモデルの信頼性を誤解させるだけである。
LLMを継続的にストレステストする動的、自動、システム的(DAS)のレッドチームフレームワークは、ロバスト性、プライバシ、バイアス/フェアネス、幻覚という4つの安全クリティカルな領域にまたがる、現在のLLMの重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価し、人間の介入なしにリアルタイムで脆弱性を発見できる。
DASを15のプロプライエタリでオープンソースのLLMに適用すると、静的ベンチマークのパフォーマンスと、敵の圧力下での脆弱性とは大きく対照的である。
中央値のMedQA精度は80\%を超えるが、前回の正解の94\%は我々の動的堅牢性試験に失敗した。
プライバシリークは86 %のシナリオで発生し、認知バイアスプライミングは81 %のフェアネステストで臨床レコメンデーションを変更した。
このような深刻な残留リスクは、定期的な臨床実践と相容れない。
静的チェックリストから動的ストレステスト監査に変換することで、DASのリピートは、LLMが患者のチャットボットや意思決定支援ダッシュボード、より広範な医療ワークフローに組み込まれるにつれて、病院やレギュレータ、テクノロジベンダが要求する監視を提供する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
関連論文リスト
- Prompt4Trust: A Reinforcement Learning Prompt Augmentation Framework for Clinically-Aligned Confidence Calibration in Multimodal Large Language Models [1.4008409814572673]
Prompt4Trustは,MLLMにおける信頼度校正をターゲットとした即時強化のための,最初の強化学習フレームワークである。
従来のキャリブレーション技術とは異なり、Prompt4Trustは安全で信頼性の高い臨床診断に最も重要なキャリブレーションの側面を特に優先している。
実験では,より大きなMLLMに対してゼロショットの一般化が期待できることを示した。
論文 参考訳(メタデータ) (2025-07-12T13:21:10Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Safeguarding AI in Medical Imaging: Post-Hoc Out-of-Distribution Detection with Normalizing Flows [3.3968168503957625]
現在のOOD検出方法は、事前訓練されたモデルに非現実的な再訓練または修正を要求する。
本稿では,既存の事前学習モデルとシームレスに統合する,ポストホック正規化フローベースアプローチを提案する。
我々の方法は84.61%のAUROCを達成し、ViM (80.65%) やMDS (80.87%) といった最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-02-17T10:31:24Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。