Fugu-MT 論文翻訳(概要): CodeClinic: Evaluating Automation of Coding Skills for Clinical Reasoning Agents

論文の概要: CodeClinic: Evaluating Automation of Coding Skills for Clinical Reasoning Agents

arxiv url: http://arxiv.org/abs/2605.09675v1
Date: Sun, 10 May 2026 17:45:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.364835
Title: CodeClinic: Evaluating Automation of Coding Skills for Clinical Reasoning Agents
Title（参考訳）: CodeClinic: 臨床推論エージェントのためのコーディングスキルの自動化の評価
Authors: Timothy Ossowski, Xinchi Liu, Danyal Maqbool, Vaibhav Dhanuka, Sheng Zhang, Hoifung Poon, Majid Afshar, Tyler Bradshaw, Junjie Hu,
Abstract要約: 我々は,LLMエージェントが再利用可能な臨床スキルを合成・構成できるかどうかを評価するためのベンチマークであるCodeClinicを紹介する。本稿では,自然言語臨床ガイドラインを再利用し,検証したPythonスキルライブラリに変換するオフラインオートフォーマル化パイプラインを提案する。
参考スコア（独自算出の注目度）: 17.491888826944074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clinical reasoning agents based on large language models (LLMs) aim to automate tasks such as intensive care unit (ICU) monitoring and patient state tracking from electronic health records (EHRs). Existing systems typically rely on manually curated clinical tools or skills for concepts such as sepsis detection and organ failure assessment. However, maintaining these tool libraries requires substantial expert effort, while zero-shot querying or code generation often produces inefficient and unreliable reasoning chains, especially under institution-specific clinical policies. We introduce CodeClinic, a benchmark built on MIMIC-IV for evaluating whether LLM agents can synthesize and compose reusable clinical skills instead of relying on fixed toolboxes. The benchmark contains two complementary tasks: longitudinal ICU surveillance and compositional information seeking. The longitudinal setting simulates monitoring patient trajectories with structured decisions every four hours across 25 findings and eight clinical families, while the compositional setting spans 63k instances across 259 tasks in nine domains and is stratified by compositional dependency depth to evaluate increasingly complex multi-step reasoning. We further propose an offline autoformalization pipeline that converts natural-language clinical guidelines into reusable and verified Python skill libraries through iterative LLM refinement. Compared with zero-shot code generation, the resulting libraries improve consistency while reducing per-query token usage by up to 40%.
Abstract（参考訳）: 大言語モデル(LLM)に基づく臨床推論エージェントは、集中治療単位(ICU)モニタリングや電子健康記録(EHR)からの患者の状態追跡などのタスクを自動化することを目的としている。既存のシステムは一般的に、手動で治した臨床ツールや、敗血症の検出や臓器不全の評価といった概念のスキルに依存している。しかしながら、これらのツールライブラリのメンテナンスにはかなりの専門的な努力が必要だが、ゼロショットクエリやコード生成は、特に機関固有の臨床方針の下では、非効率で信頼性の低い推論連鎖を生成することが多い。我々は,MIMIC-IVをベースとしたベンチマークであるCodeClinicを導入し,固定ツールボックスに頼らずに,LLMエージェントが再利用可能な臨床スキルを合成・構成できるかどうかを評価する。このベンチマークには、縦型ICU監視と構成情報探索という2つの補完的なタスクが含まれている。縦断的設定は25の発見と8の臨床家族で4時間毎に構造化された意思決定を伴う患者軌跡の監視をシミュレートする一方、構成的設定は9のドメインで229のタスクに63kのインスタンスにまたがっており、構成的依存度によって階層化され、より複雑な多段階の推論を評価する。さらに,自然言語による臨床ガイドラインを再利用可能なPythonスキルライブラリに変換するオフライン自動形式化パイプラインを提案する。ゼロショットコード生成と比較して、結果のライブラリは一貫性を改善し、クエリ単位のトークン使用量を最大40%削減する。

関連論文リスト

Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。 ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文参考訳（メタデータ） (2026-03-18T06:15:35Z)
Leveraging LLMs for Structured Data Extraction from Unstructured Patient Records [0.0]
手動チャートのレビューは、臨床研究において非常に時間がかかり、資源集約的な要素である。局所展開型大規模言語モデル(LLM)を利用した臨床ノートからの自動特徴抽出のためのフレームワークを提案する。このフレームワークは、手動のチャートレビューの負担を軽減し、データキャプチャの一貫性を向上させるLLMシステムの可能性を示す。
論文参考訳（メタデータ） (2025-12-03T14:10:12Z)
MedDCR: Learning to Design Agentic Workflows for Medical Coding [55.51674334874892]
医療符号化は、フリーテキスト臨床ノートを標準化された診断および手続きコードに変換する。本稿では,設計を学習問題として扱うクローズドループフレームワークであるMedDCRを提案する。ベンチマークデータセットでは、MedDCRは最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-11-17T13:30:51Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文参考訳（メタデータ） (2025-10-08T23:50:58Z)
EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳（メタデータ） (2025-05-29T16:14:34Z)
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。 MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文参考訳（メタデータ） (2025-05-16T18:21:52Z)
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文参考訳（メタデータ） (2024-05-13T17:38:53Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。