論文の概要: From Conversation to Query Execution: Benchmarking User and Tool Interactions for EHR Database Agents
- arxiv url: http://arxiv.org/abs/2509.23415v1
- Date: Sat, 27 Sep 2025 17:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.215819
- Title: From Conversation to Query Execution: Benchmarking User and Tool Interactions for EHR Database Agents
- Title(参考訳): 会話からクエリ実行: EHRデータベースエージェントのユーザとツールのインタラクションのベンチマーク
- Authors: Gyubok Lee, Woosog Chay, Heeyoung Kwak, Yeong Hwa Kim, Haanju Yoo, Oksoon Jeong, Meong Hi Son, Edward Choi,
- Abstract要約: EHR-ChatQAはデータベースエージェントのエンドツーエンドワークフローを評価する対話型データベース質問応答ベンチマークである。
エージェントはIncreQAで90-95%(少なくとも5つのトライアルのうちの1つ)、AdaptQAで60-80%、Pass5で35-60%、高いPass@5を達成する。
これらの結果は、パフォーマンスだけでなく、安全クリティカルなEHRドメインにも堅牢なエージェントを構築する必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 15.31222936637621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance of LLM-powered agents, their adoption for Electronic Health Record (EHR) data access remains limited by the absence of benchmarks that adequately capture real-world clinical data access flows. In practice, two core challenges hinder deployment: query ambiguity from vague user questions and value mismatch between user terminology and database entries. To address this, we introduce EHR-ChatQA an interactive database question answering benchmark that evaluates the end-to-end workflow of database agents: clarifying user questions, using tools to resolve value mismatches, and generating correct SQL to deliver accurate answers. To cover diverse patterns of query ambiguity and value mismatch, EHR-ChatQA assesses agents in a simulated environment with an LLM-based user across two interaction flows: Incremental Query Refinement (IncreQA), where users add constraints to existing queries, and Adaptive Query Refinement (AdaptQA), where users adjust their search goals mid-conversation. Experiments with state-of-the-art LLMs (e.g., o4-mini and Gemini-2.5-Flash) over five i.i.d. trials show that while agents achieve high Pass@5 of 90-95% (at least one of five trials) on IncreQA and 60-80% on AdaptQA, their Pass^5 (consistent success across all five trials) is substantially lower by 35-60%. These results underscore the need to build agents that are not only performant but also robust for the safety-critical EHR domain. Finally, we provide diagnostic insights into common failure modes to guide future agent development.
- Abstract(参考訳): LLMを使用したエージェントの優れたパフォーマンスにもかかわらず、Electronic Health Record(EHR)データアクセスの採用は、実際の臨床データアクセスフローを適切にキャプチャするベンチマークが欠如しているため、依然として制限されている。
実際には、曖昧なユーザ質問からのあいまいさのクエリと、ユーザ用語とデータベースエントリの値ミスマッチである。
これを解決するために、EHR-ChatQAという対話型データベース質問応答ベンチマークを導入し、データベースエージェントのエンドツーエンドワークフローを評価する。
クエリのあいまいさと値ミスマッチのさまざまなパターンをカバーするために、EHR-ChatQAは、2つのインタラクションフローにわたるLLMベースのユーザによるシミュレーション環境でエージェントを評価する: インクリメンタルクエリリファインメント(IncreQA)、ユーザが既存のクエリに制約を加えるAdaptive Query Refinement(AdaptQA)、ユーザが会話の途中で検索目標を調整するAdaptive Query Refinement(AdaptQA)。
最先端のLSM(例: o4-mini と Gemini-2.5-Flash)を5回の試験で比較したところ、IncreQAでは90-95%(少なくとも5回の試験のうちの1回)、AdaptQAでは60-80%(5回の試験で連続的に成功した)の高Pass@5が35-60%低下した。
これらの結果は、パフォーマンスだけでなく、安全クリティカルなEHRドメインにも堅牢なエージェントを構築する必要性を浮き彫りにしている。
最後に、今後のエージェント開発を導くために、共通の障害モードに関する診断的洞察を提供する。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL [63.578576078216976]
CLINはMIMICIV v3.1の633のエキスパートアノテートタスクのベンチマークである。
我々はChain-of-Thoughtセルフリファインメントの下で22のプロプライエタリモデルとオープンソースモデルを評価した。
最近の進歩にもかかわらず、パフォーマンスは臨床的な信頼性には程遠い。
論文 参考訳(メタデータ) (2026-01-14T21:12:06Z) - SCARE: A Benchmark for SQL Correction and Question Answerability Classification for Reliable EHR Question Answering [18.161591137171623]
EHR QAシステムにおける保温後安全層として機能する手法を評価するためのベンチマークであるSCAREを紹介する。
SCAREは(1)質問応答可能性(すなわち、質問が回答可能か、あいまいか、答え不能か)を分類し、(2)候補qlクエリを検証または修正する共同タスクを評価する。
論文 参考訳(メタデータ) (2025-11-13T06:35:29Z) - BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions [33.59162905707337]
大規模言語モデル(LLM)は、単一ターンのテキスト・ツー・タスクにおいて顕著な性能を示してきたが、現実のデータベースアプリケーションは、主にマルチターンインタラクションを必要とする。
既存のマルチターンベンチマークは、会話履歴を静的なコンテキストとして扱うか、読み取り専用操作に対する評価を制限することで不足する。
BIRD-INTERACTは,(1)知識ベース,メタデータファイル,機能駆動型ユーザシミュレータとデータベースを結合した総合的なインタラクション環境であり,モデルの解明,知識の検索,エラーからの回復を人間の監督なしに行うことができる。
論文 参考訳(メタデータ) (2025-10-06T19:31:47Z) - OptAgent: Optimizing Query Rewriting for E-commerce via Multi-Agent Simulation [1.3722079106827219]
OptAgentは、マルチエージェントシミュレーションと遺伝的アルゴリズムを組み合わせて、eコマースクエリのクエリを検証、最適化する新しいフレームワークである。
我々は、OptAgentを5つのカテゴリで1000の現実世界のeコマースクエリのデータセットで評価する。
論文 参考訳(メタデータ) (2025-10-04T10:41:09Z) - Compliance Brain Assistant: Conversational Agentic AI for Assisting Compliance Tasks in Enterprise Environments [2.8724171056550256]
Compliance Brain Assistant (CBA) は、企業環境における人員の日々のコンプライアンスタスクの効率を高めるために設計された、対話型のエージェントAIアシスタントである。
応答品質とレイテンシのバランスを良くするために,FastTrackモードとFullAgenticモードをインテリジェントに選択できるユーザクエリルータを設計する。
論文 参考訳(メタデータ) (2025-07-23T07:51:10Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。