論文の概要: Neural at ArchEHR-QA 2026: One Method Fits All: Unified Prompt Optimization for Clinical QA over EHRs
- arxiv url: http://arxiv.org/abs/2605.10877v1
- Date: Mon, 11 May 2026 17:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.031368
- Title: Neural at ArchEHR-QA 2026: One Method Fits All: Unified Prompt Optimization for Clinical QA over EHRs
- Title(参考訳): ArchEHR-QA 2026: One Method Fits All: Unified Prompt Optimization for Clinical QA over EHRs
- Authors: Abrar Majeedi, Viswanatha Reddy Gajjala, Sai Prasanna Teja Reddy Bogireddy, Siddhant Rai,
- Abstract要約: 本稿では,CL4Health@LREC 2026におけるArchEHR-QA 2026共有タスクについて述べる。
DSPy の MIPROv21.5 を用いて,タスクを独立したモジュールステージに分離し,ハイパフォーマンスなプロンプトを自動的に検出する。
- 参考スコア(独自算出の注目度): 2.7732306355664753
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated question answering (QA) over electronic health records (EHRs) demands precise evidence retrieval, faithful answer generation, and explicit grounding of answers in clinical notes. In this work, we present Neural1.5, our method for the ArchEHR-QA 2026 shared task at CL4Health@LREC 2026, which comprises four subtasks: question interpretation, evidence identification, answer generation, and evidence alignment. Our approach decouples the task into independent, modular stages and employs DSPy"s MIPROv2 optimizer to automatically discover high-performing prompts, jointly tuning instructions and few-shot demonstrations for each stage. Within every stage, self-consistency voting over multiple stochastic inference runs suppresses spurious errors and improves reliability, while stage-specific verification mechanisms (e.g., self-reflection and chain-of-verification for alignment) further refine output quality. Among all teams that participated in all four subtasks, our method ranks second overall (mean rank 4.00), placing 4th, 1st, 4th, and 7th on Subtasks 1-4, respectively. These results demonstrate that systematic, per-stage prompt optimization combined with self-consistency mechanisms is a cost-effective alternative to model fine-tuning for multifaceted clinical QA.
- Abstract(参考訳): 電子健康記録(EHR)に対するQA(Automated Question answering)は、正確な証拠検索、忠実な回答生成、および臨床ノートでの回答の明確な根拠を要求する。
本研究では,CL4Health@LREC 2026におけるArchEHR-QA 2026共有タスクであるNeural1.5を提案する。
提案手法では,DSPyのMIPROv2オプティマイザを用いてタスクを独立モジュールステージに分離し,ハイパフォーマンスなプロンプトを自動検出し,命令を共同で調整し,各ステージに対して数発のデモを行う。
各段階において、複数の確率的推論に対する自己整合性投票が急激なエラーを抑制し、信頼性を向上させる一方、ステージ固有の検証機構(例えば、自己回帰とアライメントの連鎖検証)は出力品質をさらに改善する。
4つのサブタスクすべてに参加したチームの中で、我々の手法は総合2位(平均ランク4.00)で、それぞれサブタスク1-4で4位、第1位、第4位、第7位にランクインした。
これらの結果から,多面的臨床QAのためのモデル微調整の代案として,自己整合性機構を併用した系統的,段階ごとのプロンプト最適化が費用対効果があることが示唆された。
関連論文リスト
- HealthNLP_Retrievers at ArchEHR-QA 2026: Cascaded LLM Pipeline for Grounded Clinical Question Answering [4.835744579415159]
本稿では,HealthNLP_Retrieversチームが開発したシステムについて述べる。
提案手法では,Gemini 2.5 Proの大規模言語モデルを利用した多段階カスケードパイプラインを使用する。
本アーキテクチャは,(1)患者問合せを要約する数発の問合せ修正ユニット,(2)臨床文章をリコールする動詞ベースのエビデンススコアラ,(3)専門職の回答を合成する接地応答生成器の4つの統合モジュールから構成される。
論文 参考訳(メタデータ) (2026-04-29T16:47:20Z) - Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding [1.6365003324232734]
Inference-time search algorithm that frames interpretability as a individual optimization problem。
ToEは、粗いグループまたはデータの単位をスコアする軽量なEvidence Bottleneckを採用し、モデルの予測を再現するために必要なコンパクトなエビデンスを特定するためにビームサーチを実行する。
スパースエビデンス予算の下では、ToEは他のアプローチよりも高い決定合意と低い確率忠実度誤差を達成する。
論文 参考訳(メタデータ) (2026-04-09T01:28:14Z) - QU-NLP at ArchEHR-QA 2026: Two-Stage QLoRA Fine-Tuning of Qwen3-4B for Patient-Oriented Clinical Question Answering and Evidence Sentence Alignment [1.0152838128195467]
本稿では,ArchEHR-QA共有タスクのサブタスク3(回答生成)とサブタスク4(証拠文アライメント)の両方に対処する統一システムを提案する。
Subtask 3では、4ビットNF4量子化でロードされたQwen3-4Bに2段階の量子化低ランク適応(QLoRA)を適用する。
Subtask 4では,相対しきい値付きBM25,TF-IDFコサイン類似度,微調整型クロスエンコーダの3種類の検索手法の重み付けアンサンブルを開発した。
論文 参考訳(メタデータ) (2026-03-26T11:24:13Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering [4.898784451149235]
今回我々は,BioNLP 2025 Arch-QA の準優勝者である Neural について紹介する。
提案手法は,(1)文章レベルのエビデンス同定と(2)明示的な引用による回答合成にタスクを分解する。
自己整合性投票方式は、精度を犠牲にすることなく証拠リコールをさらに改善する。
論文 参考訳(メタデータ) (2025-06-12T14:36:18Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。