論文の概要: RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation
- arxiv url: http://arxiv.org/abs/2605.13542v1
- Date: Wed, 13 May 2026 13:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.085541
- Title: RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation
- Title(参考訳): RealICU:LLMエージェントは長期ICUデータを理解するか?
- Authors: Chengzhi Shen, Weixiang Shen, Tobias Susetzky, Chen, Chen, Jun Li, Yuyuan Liu, Xuepeng Zhang, Zhenyu Gong, Daniel Rueckert, Jiazhen Pan,
- Abstract要約: RealICUは、実際のICU条件下での大規模言語モデル評価のための、後述のベンチマークである。
94MIC-IV患者の930ウィンドウアノテーションを持つRealICU-Goldと、Oracleによって拡張された11,862ウィンドウを持つRealICU-Scaleの2つのデータセットをリリースする。
- 参考スコア(独自算出の注目度): 46.82418087865201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intensive care units (ICU) generate long, dense and evolving streams of clinical information, where physicians must repeatedly reassess patient states under time pressure, underscoring a clear need for reliable AI decision support. Existing ICU benchmarks typically treat historical clinician actions as ground truth. However, these actions are made under incomplete information and limited temporal context of the underlying patient state, and may therefore be suboptimal, making it difficult to assess the true reasoning capabilities of AI systems. We introduce RealICU, a hindsight-annotated benchmark for evaluating large language models (LLMs) under realistic ICU conditions, where labels are created after senior physicians review the full patient trajectory. We formulate four physician-motivated tasks: assess Patient Status, Acute Problems, Recommended Actions, and Red Flag actions that risk unsafe outcomes. We partition each trajectory with 30-min windows and release two datasets: RealICU-Gold with 930-window annotations from 94 MIMIC-IV patients, and RealICU-Scale with 11,862 windows extended by Oracle, a physician-validated LLM hindsight labeler. Existing LLMs including memory-augmented ones performed poorly on RealICU, exposing two failure modes: a recall-safety tradeoff for clinical recommendations, and an anchoring bias to early interpretations of the patient. We further introduce ICU-Evo to study structured-memory agents that improves long-horizon reasoning but does not fully eliminate safety failures. Together, RealICU provides a clinically grounded testbed for measuring and improving AI sequential decision-support in high-stakes care. Project page: https://chengzhi-leo.github.io/RealICU-Bench/
- Abstract(参考訳): 集中治療ユニット(ICU)は、長期で密度が高く進化する臨床情報のストリームを生成し、医師は時間的プレッシャーの下で患者の状態を再評価し、信頼できるAI意思決定支援の必要性を明確に示す。
既存のICUベンチマークは、典型的には歴史的クリニックのアクションを基礎的真実として扱う。
しかし、これらの行動は、基礎となる患者の状態の不完全な情報と限られた時間的文脈の下で行われ、従って、亜最適である可能性があるため、AIシステムの真の推論能力を評価することは困難である。
本報告では,ICU 条件下での大規模言語モデル (LLM) 評価のための後向きアノテーション付きベンチマークである RealICU について紹介する。
患者状況,急性問題,推奨行動,安全でない結果のリスクを負うレッドフラッグアクションの4つの医師動機的タスクを定式化する。
私たちは各トラジェクトリを30分ウィンドウで分割し、94MIMIC-IV患者の930ウィンドウアノテーションを持つRealICU-Goldと、医師公認のLCMヒンドシットラベスターであるOracleによって拡張された11,862ウィンドウを持つRealICU-Scaleの2つのデータセットをリリースしました。
既存のLLMは、RealICUではうまく機能せず、2つの障害モードが露呈した: 臨床レコメンデーションのためのリコールセーフティトレードオフと、患者の早期解釈に対する偏見である。
さらに、ICU-Evoを導入して、長距離推論を改善するが、安全性の欠陥を完全に排除しない構造化メモリエージェントについて検討する。
同時に、RealICUは、ハイテイクケアにおけるAIシーケンシャルな意思決定支援の測定と改善のための臨床試験ベッドを提供する。
プロジェクトページ:https://chengzhi-leo.github.io/RealICU-Bench/
関連論文リスト
- KEPIL: Knowledge-Enhanced Prompt-Image Learning for Prompt-Robust Disease Detection [6.447908430647854]
放射線学的所見は、実際には長い尾を持つが、いくつかの条件は表現されておらず、ゼロショット推論が不可欠である。
我々は、ゼロショットの一般化を安定させるために、キュレートされた医療知識を統合するプロンプトロバストフレームワークであるtextitKEPILを提案する。
論文 参考訳(メタデータ) (2026-05-09T19:29:01Z) - Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations [2.337503919179969]
実際の医療相談で一般的に発生する患者行動について検討する。
各動作について、安全でない応答をキャプチャする具体的な障害基準を指定する。
患者発話に対する応答について,オープンおよびクローズドソースのLCMについて検討した。
論文 参考訳(メタデータ) (2026-03-31T07:42:07Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Detecting Visual Cues in the Intensive Care Unit and Association with Patient Clinical Status [0.9867627975175174]
ICUの既存の患者評価は散発的であり、手動で管理されている。
我々はデータ不均衡問題に対処する新しい「マスケッド損失計算」手法を開発した。
634,054フレームのAU推論を行い,顔面AUと臨床的に重要な患者状況との関連性について検討した。
論文 参考訳(メタデータ) (2023-11-01T15:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。