論文の概要: PediatricAnxietyBench: Evaluating Large Language Model Safety Under Parental Anxiety and Pressure in Pediatric Consultations
- arxiv url: http://arxiv.org/abs/2512.15894v1
- Date: Wed, 17 Dec 2025 19:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.782053
- Title: PediatricAnxietyBench: Evaluating Large Language Model Safety Under Parental Anxiety and Pressure in Pediatric Consultations
- Title(参考訳): Pediatric AnxietyBench:小児相談における親の不安と圧力下における大規模言語モデルの安全性の評価
- Authors: Vahideh Zolfaghari,
- Abstract要約: 不安な親はしばしばモデルセーフガードを使用し、モデルセーフガードを妥協し、有害なアドバイスを引き起こす可能性がある。
PediatricAnxietyBenchは10の小児トピックにわたる300の高品質なクエリのオープンソースベンチマークである。
2つのモデル(70Bと8B)を多次元安全フレームワークを用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly consulted by parents for pediatric guidance, yet their safety under real-world adversarial pressures is poorly understood. Anxious parents often use urgent language that can compromise model safeguards, potentially causing harmful advice. PediatricAnxietyBench is an open-source benchmark of 300 high-quality queries across 10 pediatric topics (150 patient-derived, 150 adversarial) enabling reproducible evaluation. Two Llama models (70B and 8B) were assessed using a multi-dimensional safety framework covering diagnostic restraint, referral adherence, hedging, and emergency recognition. Adversarial queries incorporated parental pressure patterns, including urgency, economic barriers, and challenges to disclaimers. Mean safety score was 5.50/15 (SD=2.41). The 70B model outperformed the 8B model (6.26 vs 4.95, p<0.001) with lower critical failures (4.8% vs 12.0%, p=0.02). Adversarial queries reduced safety by 8% (p=0.03), with urgency causing the largest drop (-1.40). Vulnerabilities appeared in seizures (33.3% inappropriate diagnosis) and post-vaccination queries. Hedging strongly correlated with safety (r=0.68, p<0.001), while emergency recognition was absent. Model scale influences safety, yet all models showed vulnerabilities to realistic parental pressures. PediatricAnxietyBench provides a reusable adversarial evaluation framework to reveal clinically significant failure modes overlooked by standard benchmarks.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 小児科の指導のために, 親からますます相談を受けているが, 現実の対人的圧力下での安全性はよく分かっていない。
不安な親はしばしば、モデル保護を妥協する緊急言語を使用し、有害なアドバイスを引き起こす可能性がある。
PediatricAnxietyBenchは、再現可能な評価を可能にする10の小児トピック(150の患者由来、150の敵対者)にわたる300の高品質クエリのオープンソースベンチマークである。
2つのLlamaモデル (70B, 8B) を診断抑制, 基準付着, ヘッジ, 緊急認識を含む多次元安全枠組みを用いて評価した。
敵対的なクエリには、緊急性、経済障壁、宣言者への挑戦など、親の圧力パターンが組み込まれていた。
平均安全性スコアは5.50/15(SD=2.41)である。
70Bモデルは8Bモデル(6.26対4.95、p<0.001)より低い臨界故障(4.8%対12.0%、p=0.02)で性能が向上した。
敵のクエリによって安全性が8%低下(p=0.03)し、緊急性が最大の低下(1.40)を引き起こした。
感染症は発作(33.3%不適切な診断)と予防接種後のクエリに現れた。
出血は安全性と強く相関し(r=0.68, p<0.001)、緊急認識は欠如していた。
モデルスケールは安全性に影響を与えるが、すべてのモデルは現実的な親圧力に対する脆弱性を示した。
PediatricAnxietyBenchは、標準的なベンチマークで見落とされた臨床的に重要な障害モードを明らかにするために、再利用可能な逆評価フレームワークを提供する。
関連論文リスト
- Can Large Language Models Function as Qualified Pediatricians? A Systematic Evaluation in Real-World Clinical Contexts [9.274932109971358]
医学における大規模言語モデル(LLM)の急激な普及に伴い、実際の臨床現場で有能な小児科医として機能するかどうかが重要な疑問である。
PEDIASBenchは,知識システムフレームワークを中心とした,現実的な臨床環境に適したシステム評価フレームワークである。
GPT-4o, Qwen3-235B-A22B, DeepSeek-V3を含む過去2年間にリリースされた12種類の代表モデルについて検討した。
論文 参考訳(メタデータ) (2025-11-17T13:54:00Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Adversarial Attacks on Reinforcement Learning-based Medical Questionnaire Systems: Input-level Perturbation Strategies and Medical Constraint Validation [0.0]
RLベースの医療アンケートシステムは、医療シナリオにおいて大きな可能性を示している。
本研究は,潜在的な脆弱性を同定・解析するための敵攻撃手法に関する総合的な評価を行う。
論文 参考訳(メタデータ) (2025-08-05T11:10:49Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - FORTRESS: Frontier Risk Evaluation for National Security and Public Safety [5.544163262906087]
現在のベンチマークは、国家の安全と公共の安全リスクに対する安全の堅牢性をテストするのに失敗することが多い。
forTRESS:500人の専門家による敵のプロンプトと4-7のバイナリー質問のインスタンスベースのルーリックについて紹介する。
各プロンプト-ルブリックペアは、モデルオーバーリフレクションをテストするための対応する良性バージョンを持つ。
論文 参考訳(メタデータ) (2025-06-17T19:08:02Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。