Fugu-MT 論文翻訳(概要): Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering

論文の概要: Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering

arxiv url: http://arxiv.org/abs/2604.07116v1
Date: Wed, 08 Apr 2026 14:09:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.5723
Title: Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering
Title（参考訳）: ArchEHR-QA 2026におけるYale-DM-Lab: EHR質問応答のための決定論的グラウンドニングとマルチパスアライメント
Authors: Elyas Irankhah, Samah Fodeh,
Abstract要約: 本稿では,ArchEHR-QA 2026共有タスクのためのYale-DM-Labシステムについて述べる。このタスクスタディは、入院記録に関する患者による質問である。開発セットの最高スコアはST4の88.81マイクロF1、ST2の65.72マクロF1、ST3の34.01、ST1の33.05である。
参考スコア（独自算出の注目度）: 0.33054385258808067
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe the Yale-DM-Lab system for the ArchEHR-QA 2026 shared task. The task studies patient-authored questions about hospitalization records and contains four subtasks (ST): clinician-interpreted question reformulation, evidence sentence identification, answer generation, and evidence-answer alignment. ST1 uses a dual-model pipeline with Claude Sonnet 4 and GPT-4o to reformulate patient questions into clinician-interpreted questions. ST2-ST4 rely on Azure-hosted model ensembles (o3, GPT-5.2, GPT-5.1, and DeepSeek-R1) combined with few-shot prompting and voting strategies. Our experiments show three main findings. First, model diversity and ensemble voting consistently improve performance compared to single-model baselines. Second, the full clinician answer paragraph is provided as additional prompt context for evidence alignment. Third, results on the development set show that alignment accuracy is mainly limited by reasoning. The best scores on the development set reach 88.81 micro F1 on ST4, 65.72 macro F1 on ST2, 34.01 on ST3, and 33.05 on ST1.
Abstract（参考訳）: 本稿では,ArchEHR-QA 2026共有タスクのためのYale-DM-Labシステムについて述べる。このタスクスタディでは、入院記録に関する患者認可の質問と、4つのサブタスク(ST)を含む:臨床者が解釈した質問の改定、エビデンス文の識別、回答生成、エビデンス-回答アライメント。 ST1は、Claude Sonnet 4 と GPT-4o で二重モデルパイプラインを使用して、患者の質問を臨床医が解釈した質問に再構成する。 ST2-ST4 は Azure がホストするモデルアンサンブル (o3, GPT-5.2, GPT-5.1, DeepSeek-R1) に依存している。我々の実験は3つの主な発見を示している。第一に、モデルの多様性とアンサンブル投票はシングルモデルベースラインと比較して一貫してパフォーマンスを向上する。第2に、完全臨床回答段落は、証拠のアライメントのための追加のプロンプトコンテキストとして提供される。第3に、開発セットにおける結果から、アライメントの精度は、主に推論によって制限されていることが示されている。開発セットの最高スコアはST4の88.81マイクロF1、ST2の65.72マクロF1、ST3の34.01、ST1の33.05である。

関連論文リスト

MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文参考訳（メタデータ） (2025-12-10T17:55:06Z)
TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文参考訳（メタデータ） (2025-09-29T13:54:34Z)
MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文参考訳（メタデータ） (2025-08-22T13:48:37Z)
Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering [4.898784451149235]
今回我々は,BioNLP 2025 Arch-QA の準優勝者である Neural について紹介する。提案手法は,(1)文章レベルのエビデンス同定と(2)明示的な引用による回答合成にタスクを分解する。自己整合性投票方式は、精度を犠牲にすることなく証拠リコールをさらに改善する。
論文参考訳（メタデータ） (2025-06-12T14:36:18Z)
A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization [15.837772594006038]
ArchEHR-QAは、集中治療室と救急部門の設定から現実の患者をベースとした、専門家による注釈付きデータセットである。症例は、公衆衛生フォーラムへの患者による質問、臨床医が解釈した質問、関連する臨床ノートの抜粋、および臨床医が認可した回答である。答えファーストのプロンプトアプローチは一貫して最善を尽くし、ラマ4は最高得点を獲得した。
論文参考訳（メタデータ） (2025-06-04T16:55:08Z)
Give me Some Hard Questions: Synthetic Data Generation for Clinical QA [13.436187152293515]
本稿では,ゼロショット環境での大規模言語モデル(LLM)を用いた臨床QAデータの生成について検討する。ナイーブなプロンプトが臨床シナリオの複雑さを反映しない簡単な質問をもたらすことがよくあります。 2つの臨床QAデータセットを用いた実験により,本手法はより難解な質問を発生し,ベースライン上での微調整性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-12-05T19:35:41Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである* Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。 Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文参考訳（メタデータ） (2023-10-28T12:08:03Z)
GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from Doctor-Patient Conversations through Fine-tuning and In-context Learning [4.2570830892708225]
本稿では,サブタスクAとサブタスクBの両方を含む,MEDIQA-2023 Dialogue2Note共有タスクへのコントリビューションについて述べる。本稿では,対話要約問題としてタスクにアプローチし,a)事前学習した対話要約モデルとGPT-3の微調整,およびb)大規模言語モデルであるGPT-4を用いた少数ショットインコンテキスト学習(ICL)の2つのパイプラインを実装した。どちらの方法もROUGE-1 F1、BERTScore F1(deberta-xlarge-mnli)、BLEURTで優れた結果が得られる。
論文参考訳（メタデータ） (2023-05-08T19:16:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。