論文の概要: MIRA: A Bilingual Benchmark for Medical Information Response Audit
- arxiv url: http://arxiv.org/abs/2605.28025v1
- Date: Wed, 27 May 2026 06:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.803324
- Title: MIRA: A Bilingual Benchmark for Medical Information Response Audit
- Title(参考訳): MIRA:医療情報応答監査のためのバイリンガルベンチマーク
- Authors: Mengyu Xu, Qiaoxin Yang, Qianqian Wang, Xiwei Dai, Weiyi Wu, Chongyang Gao,
- Abstract要約: MIRA(Messical Information Response Audit)は、大規模言語モデルが、ユーザ側言語、レジスタ、健康リテラシー信号に匹敵する医療情報を提供するかどうかを評価するベンチマークである。
MIRAには、医学的にレビューされた低リスクの健康問題60件から4,320件のプロンプトが含まれている。
5つの主要なLCMで、モデルはすべての医学的疑問に答えたが、健康リテラシーの低い信号に対する反応は、常に重要な情報を省略した。
知識誘導による緩和は、ほとんどのモデルにおいて情報希釈を減少させる。
- 参考スコア(独自算出の注目度): 15.237529171433346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to provide public-facing health information, yet existing safety evaluations overlook whether responses preserve comparable medical information across different user phrasings of the same question. To address this, we introduce the Medical Information Response Audit (MIRA), a bilingual, controlled benchmark that assesses whether LLMs provide comparable medical information across user-side language, register, and health literacy signals. MIRA contains 4,320 prompts built from 60 medically reviewed, low-risk health questions. Across five mainstream LLMs, models answered all medical questions, but responses to low health-literacy signals consistently omitted more key information, provided fewer concrete next steps, and offered less support for independent judgment. We term this pattern Differential Information Dilution (DID). Language effects are model-specific rather than uniformly worse for non-English prompts. A comparison with 300 real-world health queries provides preliminary evidence of rank-order validity. A knowledge-guided mitigation prompt reduces information dilution for most models, with the largest reductions in underinformative simplification observed for Claude (~8%) and Qwen (~6%).
- Abstract(参考訳): 大規模言語モデル (LLMs) は公衆の健康情報を提供するためにますます使われているが、既存の安全評価では、応答が同じ質問の異なるユーザーの言い回しに匹敵する医療情報を保存しているかどうかを見落としている。
この問題を解決するために、LLMがユーザ側言語、登録、健康リテラシー信号に匹敵する医療情報を提供するかどうかを評価するバイリンガル制御ベンチマークであるMIRA(Medicical Information Response Audit)を導入する。
MIRAには、医学的にレビューされた低リスクの健康問題60件からなる4,320件のプロンプトが含まれている。
5つの主要なLCM全体において、モデルは全ての医学的問題に答えたが、健康上のリテラシーの低い信号に対する反応は、常に重要な情報を省略し、次のステップの具体化を減らし、独立した判断への支持を減らした。
このパターンを差分情報希釈(DID)と呼ぶ。
言語効果は、非英語のプロンプトに対して一様に悪いのではなく、モデル固有のものである。
300の現実世界の健康クエリと比較すると、ランク順の妥当性の予備的な証拠が得られる。
知識誘導による緩和は、ほとんどのモデルにおいて情報希釈を減少させ、クロード (~8%) とクウェン (~6%) で観測される不定形的単純化の最大値が減少する。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [15.61511109105186]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language [0.1747623282473278]
PerMedCQAは、医療消費者の質問応答のための大規模な言語モデルを評価するためのペルシア語による最初のベンチマークである。
LLMグレーダによって駆動される新しい評価フレームワークであるMedJudgeを用いて、最先端の多言語および命令調整型LLMを評価した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
論文 参考訳(メタデータ) (2025-05-23T19:39:01Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - An Empirical Evaluation of Large Language Models on Consumer Health Questions [0.30723404270319693]
本研究は,MedRedQAにおけるいくつかの大規模言語モデル(LLM)の性能評価である。
GPT-4o miniは5つのモデルの審査員のうち4人に応じて専門家の反応に最も適しており、Mistral-7Bは5つのモデルの審査員のうち3人から最も低いスコアを得た。
論文 参考訳(メタデータ) (2024-12-31T01:08:15Z) - Evaluating Search Engines and Large Language Models for Answering Health Questions [3.8984586307450093]
本研究は,150の健康関連質問に対して,4つの人気のあるSE,7つのLLM,および検索強化(RAG)変異体の性能を比較した。
発見によると、SEは50から70%の質問に正しく答えており、多くの場合、健康問題に反応しない多くの検索結果によって妨げられている。
RAG法はLLMの有効性を著しく向上させ, 精度を最大30%向上させた。
論文 参考訳(メタデータ) (2024-07-17T10:40:39Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。