論文の概要: Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA
- arxiv url: http://arxiv.org/abs/2606.04262v1
- Date: Tue, 02 Jun 2026 22:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.406588
- Title: Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA
- Title(参考訳): I can take another dose? Evaluating LLM Decision-Making under Temporal Uncertainty in OTC Dosing QA
- Authors: Maroof Kousar, Yibo Hu,
- Abstract要約: 提案するDOSEBENCHは,81個のOCCドッキングシナリオのベンチマークである。
我々は、意思決定の正確性、一貫性、説明の妥当性、障害タイプ、信頼性関連信号の指標を用いて、繰り返し実行中の4つのLCMを評価した。
- 参考スコア(独自算出の注目度): 1.3583317564926913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、ユーザーがOTC(over-the-counter)薬を安全に服用できるかどうかなど、日常的な健康問題にますます使われている。
しかし、既存の医療QA評価では、正しい回答には、追跡用量タイミング、24時間の転がりの計算、製品ラベルの制約に従うこと、不完全な薬物履歴を扱うことが必要である。
我々は成人アセトアミノフェンとイブプロフェンの使用に焦点を当てた81回のOCC投与シナリオのベンチマークであるDOSEBENCHを紹介した。
我々は、意思決定の正確性、一貫性、説明の妥当性、障害タイプ、信頼性関連信号の指標を用いて、繰り返し実行中の4つのLCMを評価し、1,620のモデル応答を得た。
以上の結果から, 転がり風の推理や曖昧性に敏感なケースにしばしば苦しむモデルが, 安定的あるいは確実な応答は, 投機的制約に反する可能性があることが示唆された。
これらの結果から, OTC投与は, 医療用QAにおける時間的推論, 制約追従, 安全関連不確実性処理を評価するために, 狭義かつ実用的なテストベッドを提供する可能性が示唆された。
関連論文リスト
- Quantifying and Mitigating Premature Closure in Frontier LLMs [4.513932256095551]
早期閉鎖は診断ミスの原因として認識されているが、大言語モデル(LLM)では未検討である。
構造的および開放的な医療課題における5つのフロンティアLSMの評価を行った。
論文 参考訳(メタデータ) (2026-05-14T16:02:28Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Mind the Ambiguity: Aleatoric Uncertainty Quantification in LLMs for Safe Medical Question Answering [6.782185804809171]
医療質問における大規模言語モデル あいまいなユーザクエリによって深刻な妨害を受ける。
本稿では,入力のあいまいさを,不特定入力から生じる既約不確実性であるアレタリック不確実性(AU)にリンクすることで,この課題を定式化する。
隠れ状態から直接入力のあいまいさを検出する軽量モジュールであるAU-Probeを組み込んだ,新しいAU誘導型"Clarify-Before-Answer"フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-24T03:44:08Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - ActSafe: Predicting Violations of Medical Temporal Constraints for
Medication Adherence [12.623814916342024]
本稿では,医療時間制約(MTC)違反を事前に予測するための概念実証ソリューションであるActSafeを開発する。
ActSafeは、文脈自由文法に基づくアプローチを用いて、患者の教材からMSCを抽出しマッピングする。
慢性疾患患者の評価に基づいて、ActSafeは平均F1スコア0.86で1日前にMCC違反を予測することができる。
論文 参考訳(メタデータ) (2023-01-17T18:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。