論文の概要: Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering
- arxiv url: http://arxiv.org/abs/2506.10751v1
- Date: Thu, 12 Jun 2025 14:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.781048
- Title: Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering
- Title(参考訳): ArchEHR-QA 2025のニューラルネットワーク: 臨床質問に対するエージェントプロンプト最適化
- Authors: Sai Prasanna Teja Reddy Bogireddy, Abrar Majeedi, Viswanatha Reddy Gajjala, Zhuoyan Xu, Siddhant Rai, Vaishnav Potlapalli,
- Abstract要約: 今回我々は,BioNLP 2025 Arch-QA の準優勝者である Neural について紹介する。
提案手法は,(1)文章レベルのエビデンス同定と(2)明示的な引用による回答合成にタスクを分解する。
自己整合性投票方式は、精度を犠牲にすることなく証拠リコールをさらに改善する。
- 参考スコア(独自算出の注目度): 3.3260862557368926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated question answering (QA) over electronic health records (EHRs) can bridge critical information gaps for clinicians and patients, yet it demands both precise evidence retrieval and faithful answer generation under limited supervision. In this work, we present Neural, the runner-up in the BioNLP 2025 ArchEHR-QA shared task on evidence-grounded clinical QA. Our proposed method decouples the task into (1) sentence-level evidence identification and (2) answer synthesis with explicit citations. For each stage, we automatically explore the prompt space with DSPy's MIPROv2 optimizer, jointly tuning instructions and few-shot demonstrations on the development set. A self-consistency voting scheme further improves evidence recall without sacrificing precision. On the hidden test set, our method attains an overall score of 51.5, placing second stage while outperforming standard zero-shot and few-shot prompting by over 20 and 10 points, respectively. These results indicate that data-driven prompt optimization is a cost-effective alternative to model fine-tuning for high-stakes clinical QA, advancing the reliability of AI assistants in healthcare.
- Abstract(参考訳): 電子健康記録(EHR)に対するQA(Automated Question answering)は、臨床医と患者にとって重要な情報ギャップを埋めることができるが、厳密な証拠検索と、限られた監督下での忠実な回答生成の両方を要求する。
そこで本研究では,BioNLP 2025 ArchEHR-QAの準優勝者であるNeuralについて述べる。
提案手法は,(1)文章レベルのエビデンス同定と(2)明示的な引用による回答合成にタスクを分解する。
各ステージに対して、DSPyのMIPROv2オプティマイザでプロンプト空間を自動探索し、共同で指示を調整し、開発セット上で数発のデモを行う。
自己整合性投票方式は、精度を犠牲にすることなく証拠リコールをさらに改善する。
隠れテストセットでは,全スコアが51.5となり,第2ステージが標準ゼロショット,第2ステージが20点以上,第2ステージが20点以上,第2ステージが10点以上であった。
これらの結果から,医療におけるAIアシスタントの信頼性を高めるため,データ駆動型プロンプト最適化は高精細度QAのためのモデル微調整に代わる費用対効果が示唆された。
関連論文リスト
- UTSA-NLP at ArchEHR-QA 2025: Improving EHR Question Answering via Self-Consistency Prompting [5.882312167168893]
電子カルテを用いた臨床質問に対する回答システムについて述べる。
提案手法では,2段階の大規模言語モデルを用いて,臨床医の質問に関連のある文を見つけ出すとともに,短い引用支援応答を生成する。
論文 参考訳(メタデータ) (2025-06-05T21:07:55Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Give me Some Hard Questions: Synthetic Data Generation for Clinical QA [13.436187152293515]
本稿では,ゼロショット環境での大規模言語モデル(LLM)を用いた臨床QAデータの生成について検討する。
ナイーブなプロンプトが臨床シナリオの複雑さを反映しない簡単な質問をもたらすことがよくあります。
2つの臨床QAデータセットを用いた実験により,本手法はより難解な質問を発生し,ベースライン上での微調整性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-05T19:35:41Z) - Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases [5.810320353233697]
本稿では,呼吸音の認識に適した大規模モデルであるReneを紹介する。
我々の革新的なアプローチは、事前訓練された音声認識モデルを用いて呼吸音を処理している。
我々は,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。
論文 参考訳(メタデータ) (2024-05-13T03:00:28Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Question-Answering System Extracts Information on Injection Drug Use
from Clinical Notes [4.537953996010351]
注射薬の使用(IDU)は、死亡率と死亡率を高める危険な健康行動である。
IDU情報を表示する唯一の場所は、構造化されていないフリーテキスト臨床ノートである。
臨床ノートからIDUに関する情報を抽出するための質問応答(QA)フレームワークを設計し,実証する。
論文 参考訳(メタデータ) (2023-05-15T16:37:00Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。