論文の概要: ART: Action-based Reasoning Task Benchmarking for Medical AI Agents
- arxiv url: http://arxiv.org/abs/2601.08988v1
- Date: Tue, 13 Jan 2026 21:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.171263
- Title: ART: Action-based Reasoning Task Benchmarking for Medical AI Agents
- Title(参考訳): ART: 医療AIエージェントのためのアクションベースの推論タスクベンチマーク
- Authors: Ananya Mantravadi, Shivali Dalmia, Abhishek Mukherji,
- Abstract要約: 本稿では,医療AIエージェントのためのアクションベース推論臨床タスクベンチマークを紹介する。
検索エラー、集約エラー、条件論理の誤判断の3つの主要なエラーカテゴリを同定する。
我々の4段階パイプラインは、実際の患者データに基づいて、多種多様な臨床的に検証されたタスクを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable clinical decision support requires medical AI agents capable of safe, multi-step reasoning over structured electronic health records (EHRs). While large language models (LLMs) show promise in healthcare, existing benchmarks inadequately assess performance on action-based tasks involving threshold evaluation, temporal aggregation, and conditional logic. We introduce ART, an Action-based Reasoning clinical Task benchmark for medical AI agents, which mines real-world EHR data to create challenging tasks targeting known reasoning weaknesses. Through analysis of existing benchmarks, we identify three dominant error categories: retrieval failures, aggregation errors, and conditional logic misjudgments. Our four-stage pipeline -- scenario identification, task generation, quality audit, and evaluation -- produces diverse, clinically validated tasks grounded in real patient data. Evaluating GPT-4o-mini and Claude 3.5 Sonnet on 600 tasks shows near-perfect retrieval after prompt refinement, but substantial gaps in aggregation (28--64%) and threshold reasoning (32--38%). By exposing failure modes in action-oriented EHR reasoning, ART advances toward more reliable clinical agents, an essential step for AI systems that reduce cognitive load and administrative burden, supporting workforce capacity in high-demand care settings
- Abstract(参考訳): 信頼性の高い臨床決定支援には、構造化された電子健康記録(EHR)に対して安全かつ多段階の推論が可能な医療AIエージェントが必要である。
大規模言語モデル(LLM)は医療において有望であるが、既存のベンチマークではしきい値評価、時間的集約、条件付き論理を含むアクションベースのタスクのパフォーマンスを不適切に評価している。
ARTは、医療AIエージェントのためのアクションベースのReasoning Clinical Taskベンチマークであり、現実世界のEHRデータをマイニングし、既知の推論弱点をターゲットとした課題を作成する。
既存のベンチマーク分析により,検索エラー,集約エラー,条件論理の誤判断の3つの主要なエラーカテゴリを同定する。
私たちの4段階のパイプライン -- シナリオ識別、タスク生成、品質監査、評価 -- は、実際の患者データに基づく多様な臨床的に検証されたタスクを生成します。
600タスクにおける GPT-4o-mini と Claude 3.5 Sonnet の評価は、即時改善後のほぼ完全な検索であるが、アグリゲーション(28~64%)としきい値推論(32~38%)の差が大きい。
行動指向EHR推論における障害モードを明らかにすることで、ARTはより信頼性の高い臨床エージェントへと進化する。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Human-in-the-Loop Interactive Report Generation for Chronic Disease Adherence [17.904419827298074]
慢性疾患の管理には、予防可能な入院を避けるため、定期的な順守フィードバックが必要である。
手作業によるオーサリングは、臨床精度は保たれるが、スケールしない。AI生成はスケールするが、患者が直面するコンテキストにおける信頼を損なう可能性がある。
我々は、AIをデータ組織に制約し、認識ベースのレビューを通じて医師の監督を維持する、臨床医向けループインターフェースを提案する。
論文 参考訳(メタデータ) (2026-01-10T00:19:33Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Trainee Action Recognition through Interaction Analysis in CCATT Mixed-Reality Training [1.5641818606249476]
重要なケア航空輸送チームのメンバーは、飛行中に人工呼吸器、IVポンプ、吸引装置を管理することで重傷を負った兵士を安定させなければならない。
シミュレーションとマルチモーダルデータ分析の最近の進歩は、より客観的で包括的なパフォーマンス評価を可能にする。
本研究では, CCATT のメンバーが, エアロメディカル避難の高圧条件を再現する混合現実感シミュレーションを用いて, どのように訓練されているかを検討する。
論文 参考訳(メタデータ) (2025-09-22T15:19:45Z) - Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals [4.799783526620609]
臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
論文 参考訳(メタデータ) (2022-01-18T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。