論文の概要: FHIR-AgentBench: Benchmarking LLM Agents for Realistic Interoperable EHR Question Answering
- arxiv url: http://arxiv.org/abs/2509.19319v1
- Date: Fri, 12 Sep 2025 06:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.414838
- Title: FHIR-AgentBench: Benchmarking LLM Agents for Realistic Interoperable EHR Question Answering
- Title(参考訳): FHIR-AgentBench:現実的相互運用型EHR質問応答のためのLLMエージェントのベンチマーク
- Authors: Gyubok Lee, Elea Bach, Eric Yang, Tom Pollard, Alistair Johnson, Edward Choi, Yugang jia, Jong Ha Lee,
- Abstract要約: HL7 FHIR(Health Level Seven Fast Healthcare Resources)標準への最近のシフトは、臨床AIの新たなフロンティアを開く。
FHIR-AgentBenchは、HL7 FHIR標準で2,931のリアルな臨床質問を根拠とするベンチマークである。
- 参考スコア(独自算出の注目度): 17.141355981515012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent shift toward the Health Level Seven Fast Healthcare Interoperability Resources (HL7 FHIR) standard opens a new frontier for clinical AI, demanding LLM agents to navigate complex, resource-based data models instead of conventional structured health data. However, existing benchmarks have lagged behind this transition, lacking the realism needed to evaluate recent LLMs on interoperable clinical data. To bridge this gap, we introduce FHIR-AgentBench, a benchmark that grounds 2,931 real-world clinical questions in the HL7 FHIR standard. Using this benchmark, we systematically evaluate agentic frameworks, comparing different data retrieval strategies (direct FHIR API calls vs. specialized tools), interaction patterns (single-turn vs. multi-turn), and reasoning strategies (natural language vs. code generation). Our experiments highlight the practical challenges of retrieving data from intricate FHIR resources and the difficulty of reasoning over them, both of which critically affect question answering performance. We publicly release the FHIR-AgentBench dataset and evaluation suite (https://github.com/glee4810/FHIR-AgentBench) to promote reproducible research and the development of robust, reliable LLM agents for clinical applications.
- Abstract(参考訳): 健康レベル7ファストヘルスケア相互運用性リソース(HL7 FHIR)標準への最近のシフトは、臨床AIの新しいフロンティアを開放し、従来の構造化された健康データではなく、複雑なリソースベースのデータモデルをナビゲートするようLLMエージェントに要求している。
しかし、既存のベンチマークはこの移行に遅れを取っており、相互運用可能な臨床データに基づいて最近のLSMを評価するのに必要なリアリズムが欠如している。
このギャップを埋めるために、HL7 FHIR標準で2,931の実際の臨床問題を根拠とするベンチマークであるFHIR-AgentBenchを紹介する。
このベンチマークを用いて、エージェントフレームワークを体系的に評価し、異なるデータ検索戦略(直接FHIR API呼び出しと専門ツール)、インタラクションパターン(シングルターン対マルチターン)、推論戦略(自然言語対コード生成)を比較した。
実験では、複雑なFHIRリソースからデータを取得することの実践的課題と、それらに対する推論の難しさを強調し、どちらも質問応答性能に重大な影響を与えている。
我々は、再現可能な研究を促進するためにFHIR-AgentBenchデータセットと評価スイート(https://github.com/glee4810/FHIR-AgentBench)を公開し、臨床応用のための堅牢で信頼性の高いLSMエージェントを開発した。
関連論文リスト
- Large Language Models for Automating Clinical Data Standardization: HL7 FHIR Use Case [0.2516393111664279]
本稿では、構造化された臨床データセットをHL7 FHIRフォーマットに変換するための半自動アプローチを提案する。
最初のベンチマークでは、リソースの識別は完全なF1スコアに達し、GPT-4oはLlama 3.2を上回った。
誤り解析により,非存在属性の幻覚や粒度のミスマッチが検出され,より詳細なプロンプトが軽減されることがわかった。
論文 参考訳(メタデータ) (2025-07-03T17:32:57Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration [60.535793237063885]
LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
論文 参考訳(メタデータ) (2024-05-26T12:30:20Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。