論文の概要: BIT.UA-AAUBS at ArchEHR-QA 2026: Evaluating Open-Source and Proprietary LLMs via Prompting in Low-Resource QA
- arxiv url: http://arxiv.org/abs/2605.03618v1
- Date: Tue, 05 May 2026 10:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.899737
- Title: BIT.UA-AAUBS at ArchEHR-QA 2026: Evaluating Open-Source and Proprietary LLMs via Prompting in Low-Resource QA
- Title(参考訳): BIT.UA-AAUBS at ArchEHR-QA 2026: Proprietary LLMs by Prompting in Low-Resource QA
- Authors: Richard A. A. Jonker, Alexander Christiansen, Alexandros Maniatis, Rúben Garrido, Rogério Braunschweiger de Freitas Lima, Roman Jurowetzki, Sérgio Matos,
- Abstract要約: 本稿では,ArchEHR-QA 2026共有タスクにおけるBIT.UAグループとAAUBSグループの共同参加について述べる。
トレーニングデータがないことと、医療領域に固有の厳格なデータプライバシー制約があるため、重み付けをせずにLLM(Large Language Models)の能力を調査する。
我々は、いくつかの最先端のプロプライエタリモデルと、様々な迅速なエンジニアリング戦略を用いて、ローカルにデプロイ可能なオープンソース代替品を評価した。
我々の結果は、プロプライエタリなモデルは変化を促す強力なレジリエンスを示す一方で、ドメイン適応型オープンソースモデル(MedGemma 3 27Bなど)は高い競争力を発揮することを示した。
- 参考スコア(独自算出の注目度): 65.22695574492265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the joint participation of the BIT.UA and AAUBS groups in the ArchEHR-QA 2026 shared task, which focuses on clinical question answering and evidence grounding in a low-resource setting. Due to the absence of training data and the strict data privacy constraints inherent to the healthcare domain (e.g. GDPR), we investigate the capabilities of Large Language Models (LLMs) without weight updates. We evaluate several state-of-the-art proprietary models and locally deployable open-source alternatives using various prompt engineering strategies, including task decomposition, Chain-of-Thought, and in-context learning. Furthermore, we explore majority voting and LLM-as-a-judge ensembling techniques to maximize predictive robustness. Our results demonstrate that while proprietary models exhibit strong resilience to prompt variations, domain-adapted open-source models (such as MedGemma 3 27B) achieve highly competitive performance when paired with the right prompt. Overall, our prompt-based approach proved highly effective, securing 1st place in Subtask 4 (evidence citation alignment) and 3rd place in Subtask 3 (patient-friendly answer generation). All code, results, and prompts are available on our GitHub repository: https://github.com/bioinformatics-ua/ArchEHR-QA-2026.
- Abstract(参考訳): 本稿では,BIT.UA群とAAUBS群が共同で参加するArchEHR-QA 2026課題について述べる。
トレーニングデータがないことと、医療領域固有の厳格なデータプライバシー制約(GDPRなど)のため、重み付けなしでLLM(Large Language Models)の能力を調査する。
我々は、タスク分解、Chain-of-Thought、コンテキスト内学習など、様々な迅速なエンジニアリング戦略を用いて、最先端のプロプライエタリモデルと、ローカルにデプロイ可能なオープンソース代替品を評価した。
さらに,予測ロバスト性を最大化するために,多数決とLCM-as-a-judgeアンサンブル手法について検討する。
この結果から,プロプライエタリなモデルでは変化の促進に強いレジリエンスを示す一方で,ドメイン適応型オープンソースモデル(MedGemma 3 27B など)は適切なプロンプトと組み合わせて高い競争性能を発揮することが示された。
提案手法は,Subtask 4では第1位,Subtask 3では第3位,患者に優しい回答生成では第3位であった。
すべてのコード、結果、プロンプトはGitHubリポジトリで利用可能です。
関連論文リスト
- Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis [3.1427813443719868]
大きな言語モデル(LLM)のトレーニングは、高品質で推論集約的な質問応答ペアの不足という、重大なボトルネックに直面します。
textbfSemantic Bridgeは、任意の情報源から洗練されたマルチホップ推論質問を制御可能とする最初の普遍的フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T10:59:42Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。
第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。
我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-04-01T07:23:50Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。