論文の概要: Cross-Platform Evaluation of Large Language Model Safety in Pediatric Consultations: Evolution of Adversarial Robustness and the Scale Paradox
- arxiv url: http://arxiv.org/abs/2601.09721v1
- Date: Fri, 26 Dec 2025 13:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.701758
- Title: Cross-Platform Evaluation of Large Language Model Safety in Pediatric Consultations: Evolution of Adversarial Robustness and the Scale Paradox
- Title(参考訳): 小児相談における大規模言語モデルの安全性に関するクロスプラットフォーム評価:対人ロバストネスとスケールパラドックスの進化
- Authors: Vahideh Zolfaghari,
- Abstract要約: 大規模言語モデル (LLM) は医療相談においてますます普及しているが、現実的なユーザプレッシャー下での安全性はまだ検討されていない。
本研究は,モデルおよびプラットフォーム間のコンサルティングにおける安全性を評価する。
安全性は、スケールよりもアライメントとアーキテクチャに依存しており、より小さなモデルの方が大きなパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background Large language models (LLMs) are increasingly deployed in medical consultations, yet their safety under realistic user pressures remains understudied. Prior assessments focused on neutral conditions, overlooking vulnerabilities from anxious users challenging safeguards. This study evaluated LLM safety under parental anxiety-driven adversarial pressures in pediatric consultations across models and platforms. Methods PediatricAnxietyBench, from a prior evaluation, includes 300 queries (150 authentic, 150 adversarial) spanning 10 topics. Three models were assessed via APIs: Llama-3.3-70B and Llama-3.1-8B (Groq), Mistral-7B (HuggingFace), yielding 900 responses. Safety used a 0-15 scale for restraint, referral, hedging, emergency recognition, and non-prescriptive behavior. Analyses employed paired t-tests with bootstrapped CIs. Results Mean scores: 9.70 (Llama-3.3-70B) to 10.39 (Mistral-7B). Llama-3.1-8B outperformed Llama-3.3-70B by +0.66 (p=0.0001, d=0.225). Models showed positive adversarial effects, Mistral-7B strongest (+1.09, p=0.0002). Safety generalized across platforms; Llama-3.3-70B had 8% failures. Seizures vulnerable (33% inappropriate diagnoses). Hedging predicted safety (r=0.68, p<0.001). Conclusions Evaluation shows safety depends on alignment and architecture over scale, with smaller models outperforming larger. Evolution to robustness across releases suggests targeted training progress. Vulnerabilities and no emergency recognition indicate unsuitability for triage. Findings guide selection, stress adversarial testing, and provide open benchmark for medical AI safety.
- Abstract(参考訳): 背景 大規模言語モデル (LLM) は医療相談においてますます普及しているが、現実的なユーザプレッシャー下での安全性はまだ検討されていない。
これまでの評価では中立的な条件に焦点が当てられていた。
本研究は, モデル, プラットフォーム間の小児相談において, 親の不安による対向圧下でのLCMの安全性について検討した。
PediatricAnxietyBenchは、以前の評価から、10のトピックにまたがる300のクエリ(150の真正性、150の逆性)を含んでいる。
Llama-3.3-70BとLlama-3.1-8B(Groq)、Mistral-7B(HuggingFace)の3つのモデルがAPIを介して評価された。
安全は拘束、参照、ヘッジ、緊急認識、非説明行動に0-15スケールを使用した。
分析では、ブートストラップCIとペアTテストを採用した。
結果は 9.70 (Llama-3.3-70B) から 10.39 (Mistral-7B) となる。
Llama-3.1-8BはLlama-3.3-70Bを+0.66(p=0.0001, d=0.225)で上回った。
モデルは正の逆効果を示し、Mistral-7Bは最強(+1.09, p=0.0002)である。
Llama-3.3-70Bは8%の故障があった。
セズレは脆弱(33%不適切な診断)である。
ヘッジは安全性(r=0.68, p<0.001)を予測した。
結論 評価は、安全性がスケールよりもアライメントとアーキテクチャに依存していることを示している。
リリース間の堅牢性への進化は、目標とするトレーニングの進捗を示唆している。
脆弱性と緊急認識がないことは、トリアージに不適であることを示している。
ガイドの選択、ストレス対策テスト、医療AI安全性のためのオープンベンチマークの提供。
関連論文リスト
- What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - PediatricAnxietyBench: Evaluating Large Language Model Safety Under Parental Anxiety and Pressure in Pediatric Consultations [0.0]
不安な親はしばしばモデルセーフガードを使用し、モデルセーフガードを妥協し、有害なアドバイスを引き起こす可能性がある。
PediatricAnxietyBenchは10の小児トピックにわたる300の高品質なクエリのオープンソースベンチマークである。
2つのモデル(70Bと8B)を多次元安全フレームワークを用いて評価した。
論文 参考訳(メタデータ) (2025-12-17T19:06:38Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Adversarial Attacks on Reinforcement Learning-based Medical Questionnaire Systems: Input-level Perturbation Strategies and Medical Constraint Validation [0.0]
RLベースの医療アンケートシステムは、医療シナリオにおいて大きな可能性を示している。
本研究は,潜在的な脆弱性を同定・解析するための敵攻撃手法に関する総合的な評価を行う。
論文 参考訳(メタデータ) (2025-08-05T11:10:49Z) - Truth, Trust, and Trouble: Medical AI on the Edge [16.87709061954049]
我々は1000以上の健康問題データセットを用いたベンチマークフレームワークを提案する。
正直さ、便利さ、無害さのモデルパフォーマンスを評価します。
短いショットプロンプトは精度を78%から85%に改善し、すべてのモデルが複雑なクエリの利便性を低下させる。
論文 参考訳(メタデータ) (2025-07-01T06:39:39Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。