論文の概要: Developing and evaluating a chatbot to support maternal health care
- arxiv url: http://arxiv.org/abs/2603.13168v1
- Date: Fri, 13 Mar 2026 17:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.20344
- Title: Developing and evaluating a chatbot to support maternal health care
- Title(参考訳): 母体医療を支援するチャットボットの開発と評価
- Authors: Smriti Jha, Vidhi Jain, Jianyu Xu, Grace Liu, Sowmya Ramesh, Jitender Nagpal, Gretchen Chapman, Benjamin Bellows, Siddhartha Goyal, Aarti Singh, Bryan Wilder,
- Abstract要約: 本稿では,インドにおける母体保健ロボットについて,学術研究者,医療技術企業,公衆衛生非営利団体,病院との共同研究を通じて紹介する。
本システムは,(1)ステージアウェアトリアージ,(2)専門家テンプレートへのハイリスククエリのルーティング,(2)母子・新生児ガイドラインのハイブリッド検索,(3)LCMからのエビデンス条件付き生成を組み合わせた。
当社のコアコントリビューションは、専門家の限られた監督の下での、ハイテイクデプロイメントの評価ワークフローです。
- 参考スコア(独自算出の注目度): 20.297280325309924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to provide trustworthy maternal health information using phone-based chatbots can have a significant impact, particularly in low-resource settings where users have low health literacy and limited access to care. However, deploying such systems is technically challenging: user queries are short, underspecified, and code-mixed across languages, answers require regional context-specific grounding, and partial or missing symptom context makes safe routing decisions difficult. We present a chatbot for maternal health in India developed through a partnership between academic researchers, a health tech company, a public health nonprofit, and a hospital. The system combines (1) stage-aware triage, routing high-risk queries to expert templates, (2) hybrid retrieval over curated maternal/newborn guidelines, and (3) evidence-conditioned generation from an LLM. Our core contribution is an evaluation workflow for high-stakes deployment under limited expert supervision. Targeting both component-level and end-to-end testing, we introduce: (i) a labeled triage benchmark (N=150) achieving 86.7% emergency recall, explicitly reporting the missed-emergency vs. over-escalation trade-off; (ii) a synthetic multi-evidence retrieval benchmark (N=100) with chunk-level evidence labels; (iii) LLM-as-judge comparison on real queries (N=781) using clinician-codesigned criteria; and (iv) expert validation. Our findings show that trustworthy medical assistants in multilingual, noisy settings require defense-in-depth design paired with multi-method evaluation, rather than any single model and evaluation method choice.
- Abstract(参考訳): 携帯電話ベースのチャットボットを使って信頼できる母体健康情報を提供する能力は、特に低リソース環境において、健康リテラシーが低く、ケアへのアクセスが限られている場合に大きな影響を与える可能性がある。
しかし、そのようなシステムのデプロイは技術的に困難である: ユーザクエリは短く、不特定で、言語間でコード混在しており、答えは地域的コンテキスト固有の根拠を必要とし、部分的あるいは欠落した症状は安全なルーティング決定を困難にしている。
本稿では,インドにおける母体保健のためのチャットボットについて,学術研究者,保健テック企業,公衆衛生非営利団体,病院との連携を通じて紹介する。
本システムは,(1)ステージアウェアトリアージ,(2)専門家テンプレートへのハイリスククエリのルーティング,(2)母子・新生児ガイドラインのハイブリッド検索,(3)LCMからのエビデンス条件付き生成を組み合わせた。
当社のコアコントリビューションは、専門家の限られた監督の下での、ハイテイクデプロイメントの評価ワークフローです。
コンポーネントレベルのテストとエンドツーエンドのテストの両方を対象とします。
(i)ラベル付きトリアージベンチマーク(N=150)が86.7%の緊急リコールを達成し、緊急時と過度のエスカレーショントレードオフを明示的に報告すること。
(ii) チャンクレベルのエビデンスラベルを持つ合成マルチエビデンス検索ベンチマーク(N=100)
三 臨床検査基準によるリアルクエリのLCM-as-judge比較(N=781)
(4)専門家による検証。
以上の結果から,多言語・雑音条件下での信頼性の高い医療アシスタントは,単一モデルや評価方法の選択よりも,多次元評価と組み合わせたディフェンス・イン・ディープス設計が必要であることが示唆された。
関連論文リスト
- Hybrid-Code: A Privacy-Preserving, Redundant Multi-Agent Framework for Reliable Local Clinical Coding [0.0]
クラウドベースのLarge Language Models(LLM)を使用した臨床コーディング自動化は、プライバシのリスクとレイテンシのボトルネックを引き起こす。
局所的な臨床コーディングのためのハイブリッド・ニューロシンボリック・マルチエージェント・フレームワークであるHybrid-Codeを導入する。
論文 参考訳(メタデータ) (2025-12-26T02:27:36Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文 参考訳(メタデータ) (2025-09-15T19:51:57Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。