論文の概要: QU-NLP at ArchEHR-QA 2026: Two-Stage QLoRA Fine-Tuning of Qwen3-4B for Patient-Oriented Clinical Question Answering and Evidence Sentence Alignment
- arxiv url: http://arxiv.org/abs/2604.14175v1
- Date: Thu, 26 Mar 2026 11:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.699617
- Title: QU-NLP at ArchEHR-QA 2026: Two-Stage QLoRA Fine-Tuning of Qwen3-4B for Patient-Oriented Clinical Question Answering and Evidence Sentence Alignment
- Title(参考訳): ArchEHR-QA 2026におけるQU-NLP:Qwen3-4Bの2段階QLoRAファインタニング
- Authors: Mohammad AL-Smadi,
- Abstract要約: 本稿では,ArchEHR-QA共有タスクのサブタスク3(回答生成)とサブタスク4(証拠文アライメント)の両方に対処する統一システムを提案する。
Subtask 3では、4ビットNF4量子化でロードされたQwen3-4Bに2段階の量子化低ランク適応(QLoRA)を適用する。
Subtask 4では,相対しきい値付きBM25,TF-IDFコサイン類似度,微調整型クロスエンコーダの3種類の検索手法の重み付けアンサンブルを開発した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a unified system addressing both Subtask 3 (answer generation) and Subtask 4 (evidence sentence alignment) of the ArchEHR-QA Shared Task. For Subtask 3, we apply two-stage Quantised Low-Rank Adaptation (QLoRA) to Qwen3-4B loaded in 4-bit NF4 quantisation: first on 30,000 samples from the emrQA-MedSQuAD corpus to establish clinical domain competence, then on the 20 annotated development cases to learn the task-specific output style. Our system achieves an overall score of 32.87 on the official test-2026 split (BLEU = 9.42, ROUGE-L = 27.04, SARI = 55.42, BERTScore = 43.00, AlignScore = 25.28, MEDCON = 37.04). For Subtask 4, we develop a weighted ensemble of three retrieval methods - BM25 with relative thresholding, TF-IDF cosine similarity, and a fine-tuned cross-encoder - to identify note sentences supporting a given gold answer, achieving a micro-F1 of 67.16 on the 100-case test set. Experiments reveal that both subtasks expose the same fundamental challenge: 20 annotated training cases are insufficient to distinguish relevant from irrelevant clinical sentences, pointing to data augmentation as the highest-leverage future direction.
- Abstract(参考訳): 本稿では,ArchEHR-QA共有タスクのサブタスク3(回答生成)とサブタスク4(証拠文アライメント)の両方に対処する統一システムを提案する。
Subtask 3では4ビットNF4量子化でロードされたQwen3-4Bに2段階の量子化低ランク適応(QLoRA)を適用する。
我々のシステムは公式テスト-2026スプリットで32.87点(BLEU = 9.42, ROUGE-L = 27.04, SARI = 55.42, BERTScore = 43.00, AlignScore = 25.28, MEDCON = 37.04)を達成した。
サブタスク4では, 相対しきい値付きBM25, TF-IDFコサイン類似度, 微調整されたクロスエンコーダの3つの検索手法の重み付けアンサンブルを開発し, 100ケーステストセットで67.16のマイクロF1を達成する。
20のアノテートされた訓練ケースは、無関係な臨床文章と区別するには不十分であり、データ拡張を最も平均的な将来方向として示している。
関連論文リスト
- Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering [0.33054385258808067]
本稿では,ArchEHR-QA 2026共有タスクのためのYale-DM-Labシステムについて述べる。
このタスクスタディは、入院記録に関する患者による質問である。
開発セットの最高スコアはST4の88.81マイクロF1、ST2の65.72マクロF1、ST3の34.01、ST1の33.05である。
論文 参考訳(メタデータ) (2026-04-08T14:09:25Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ArgHiTZ at ArchEHR-QA 2025: A Two-Step Divide and Conquer Approach to Patient Question Answering for Top Factuality [0.9917494440952518]
本研究は,自動質問応答におけるArchEHR-QA 2025共有タスクに対処する3つのアプローチを提案する。
外部知識を使わずにタスクを分割するために,エンドツーエンドのプロンプトベースラインと2段階の手法を導入する。
私たちの最高得点は0.44点で、30点中8位にランクインした。
論文 参考訳(メタデータ) (2025-06-15T15:32:49Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from
Doctor-Patient Conversations through Fine-tuning and In-context Learning [4.2570830892708225]
本稿では,サブタスクAとサブタスクBの両方を含む,MEDIQA-2023 Dialogue2Note共有タスクへのコントリビューションについて述べる。
本稿では,対話要約問題としてタスクにアプローチし,a)事前学習した対話要約モデルとGPT-3の微調整,およびb)大規模言語モデルであるGPT-4を用いた少数ショットインコンテキスト学習(ICL)の2つのパイプラインを実装した。
どちらの方法もROUGE-1 F1、BERTScore F1(deberta-xlarge-mnli)、BLEURTで優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-08T19:16:26Z) - MIA 2022 Shared Task Submission: Leveraging Entity Representations,
Dense-Sparse Hybrids, and Fusion-in-Decoder for Cross-Lingual Question
Answering [5.837881923712393]
複数言語情報アクセス(MIA)2022のための2段階システムについて述べる。
第1段階は多言語通訳検索とハイブリッド密集型スパース検索戦略からなる。
第2段は、第1段によって返される上位通路から回答を出力する読者で構成される。
論文 参考訳(メタデータ) (2022-07-05T10:27:17Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。