論文の概要: sebis at ArchEHR-QA 2026: How Much Can You Do Locally? Evaluating Grounded EHR QA on a Single Notebook
- arxiv url: http://arxiv.org/abs/2603.13962v1
- Date: Sat, 14 Mar 2026 14:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.511391
- Title: sebis at ArchEHR-QA 2026: How Much Can You Do Locally? Evaluating Grounded EHR QA on a Single Notebook
- Title(参考訳): ArchEHR-QA 2026: どのくらい局所的にできるのか?
- Authors: Ibrahim Ebrar Yurt, Fabian Karl, Tejaswi Choppa, Florian Matthes,
- Abstract要約: 一つのノートブックに制限された場合,EHR質問応答がどこまでプッシュできるかを検討する。
その結果,共有タスクリーダボード上での競争性能が向上することが示された。
これらの結果は、完全ローカルで動作するプライバシー保護型EHR QAシステムは、現在のモデルとコモディティハードウェアで実現可能であることを示唆している。
- 参考スコア(独自算出の注目度): 13.352838853460696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical question answering over electronic health records (EHRs) can help clinicians and patients access relevant medical information more efficiently. However, many recent approaches rely on large cloud-based models, which are difficult to deploy in clinical environments due to privacy constraints and computational requirements. In this work, we investigate how far grounded EHR question answering can be pushed when restricted to a single notebook. We participate in all four subtasks of the ArchEHR-QA 2026 shared task and evaluate several approaches designed to run on commodity hardware. All experiments are conducted locally without external APIs or cloud infrastructure. Our results show that such systems can achieve competitive performance on the shared task leaderboards. In particular, our submissions perform above average in two subtasks, and we observe that smaller models can approach the performance of much larger systems when properly configured. These findings suggest that privacy-preserving EHR QA systems running fully locally are feasible with current models and commodity hardware. The source code is available at https://github.com/ibrahimey/ArchEHR-QA-2026.
- Abstract(参考訳): 電子健康記録(EHR)に対する臨床質問応答は、臨床医や患者が関連する医療情報により効率的にアクセスできるのに役立つ。
しかし、最近の多くのアプローチは、プライバシの制約と計算要求のために臨床環境でのデプロイが困難である大規模なクラウドベースモデルに依存している。
本研究では,1つのノートブックに制限された場合,EHR質問応答がどこまでプッシュできるかを検討する。
我々は、ArchEHR-QA 2026共有タスクの4つのサブタスクすべてに参加し、コモディティハードウェア上で動くように設計されたいくつかのアプローチを評価した。
すべての実験は、外部APIやクラウドインフラストラクチャなしでローカルに実行される。
この結果から,共有タスク・リーダーボード上での競争性能が向上することが示唆された。
特に,提案手法は2つのサブタスクで平均以上の性能を達成し,より小さなモデルで適切に設定された場合,より大規模なシステムの性能にアプローチできることが観察された。
これらの結果は、完全ローカルで動作するプライバシー保護型EHR QAシステムは、現在のモデルとコモディティハードウェアで実現可能であることを示唆している。
ソースコードはhttps://github.com/ibrahimey/ArchEHR-QA-2026で公開されている。
関連論文リスト
- SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - Question Answering on Patient Medical Records with Private Fine-Tuned LLMs [1.8524621910043437]
大規模言語モデル(LLM)は、医療データに対する意味的質問応答(QA)を可能にする。
プライバシとコンプライアンスを保証するには、LLMのエッジとプライベートのデプロイメントが必要です。
GPT-4 や GPT-4o などのベンチマークモデルに対して,プライベートホスト型,微調整型 LLM の評価を行った。
論文 参考訳(メタデータ) (2025-01-23T14:13:56Z) - I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey [0.0]
データはAIアプリケーションの主要な燃料であり、HPCシステムのストレージとI/Oサブシステムのパフォーマンスは重要である。
このI/Oアクセスパターンの変化は、現代の並列ストレージシステムにいくつかの課題をもたらす。
本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。
論文 参考訳(メタデータ) (2024-04-16T08:37:36Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - HealthGAT: Node Classifications in Electronic Health Records using Graph Attention Networks [2.2026317523029193]
HealthGATは、EHRから埋め込みを生成するグラフアテンションネットワークフレームワークである。
本モデルでは,医療コードへの埋め込みを反復的に洗練し,EHRデータ解析の改善を実現している。
本モデルでは,ノード分類や,可読度予測や診断分類などの下流タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-26T22:17:01Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - UKP-SQUARE: An Online Platform for Question Answering Research [50.35348764297317]
我々は、研究者向けのオンラインQAプラットフォームであるUKP-SQUAREを紹介した。
UKP-SQUAREでは、ユーザフレンドリーなWebインターフェースと統合テストを通じて、モダンスキルの大規模なコレクションをクエリし、分析することができる。
論文 参考訳(メタデータ) (2022-03-25T15:00:24Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。