Fugu-MT 論文翻訳(概要): AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning

論文の概要: AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning

arxiv url: http://arxiv.org/abs/2402.13225v1
Date: Tue, 20 Feb 2024 18:37:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 13:55:30.842602
Title: AgentMD: Empowering Language Agents for Risk Prediction with Large-Scale Clinical Tool Learning
Title（参考訳）: AgentMD:大規模臨床ツール学習による言語エージェントのリスク予測
Authors: Qiao Jin, Zhizheng Wang, Yifan Yang, Qingqing Zhu, Donald Wright, Thomas Huang, W John Wilbur, Zhe He, Andrew Taylor, Qingyu Chen, Zhiyong Lu
Abstract要約: 我々は,臨床電卓を様々な臨床状況でキュレートし,応用できる新しい言語エージェントであるAgentMDを紹介した。 AgentMDは、実行可能な機能と構造化ドキュメントを備えた2,164の多様な臨床電卓のコレクションを自動でキュレートした。手作業による評価では、3つの品質指標に対して80%以上の精度を実現している。
参考スコア（独自算出の注目度）: 11.8292941452582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clinical calculators play a vital role in healthcare by offering accurate evidence-based predictions for various purposes such as prognosis. Nevertheless, their widespread utilization is frequently hindered by usability challenges, poor dissemination, and restricted functionality. Augmenting large language models with extensive collections of clinical calculators presents an opportunity to overcome these obstacles and improve workflow efficiency, but the scalability of the manual curation process poses a significant challenge. In response, we introduce AgentMD, a novel language agent capable of curating and applying clinical calculators across various clinical contexts. Using the published literature, AgentMD has automatically curated a collection of 2,164 diverse clinical calculators with executable functions and structured documentation, collectively named RiskCalcs. Manual evaluations show that RiskCalcs tools achieve an accuracy of over 80% on three quality metrics. At inference time, AgentMD can automatically select and apply the relevant RiskCalcs tools given any patient description. On the newly established RiskQA benchmark, AgentMD significantly outperforms chain-of-thought prompting with GPT-4 (87.7% vs. 40.9% in accuracy). Additionally, we also applied AgentMD to real-world clinical notes for analyzing both population-level and risk-level patient characteristics. In summary, our study illustrates the utility of language agents augmented with clinical calculators for healthcare analytics and patient care.
Abstract（参考訳）: 臨床電卓は、予後などの様々な目的のために正確な証拠に基づく予測を提供することで、医療において重要な役割を果たす。それでも、その普及は、ユーザビリティの課題、普及の貧弱さ、機能制限などによってしばしば妨げられている。膨大な臨床電卓コレクションによる大規模言語モデルの強化は、これらの障害を克服し、ワークフロー効率を改善する機会を提供するが、手作業によるキュレーションプロセスのスケーラビリティは大きな課題となる。そこで我々は,臨床電卓を様々な臨床状況に応用できる新しい言語エージェントであるAgentMDを紹介した。 AgentMDは、公開された文献を使って、実行可能な機能と構造化ドキュメントを備えた2,164の多様な臨床電卓のコレクションを自動でキュレートした。手作業による評価では、3つの品質指標に対して80%以上の精度を実現している。推論時に agentmd は患者の説明によらず、関連する riskcalcs ツールを自動的に選択して適用することができる。新たに確立された RiskQA のベンチマークでは、エージェントMD は GPT-4 (精度が 40.9% に対して87.7%) でチェーン・オブ・シークレットを著しく上回っている。また,AgentMDを実地臨床ノートに応用し,集団レベルとリスクレベルの両方の患者特性を解析した。本研究は,臨床電卓を付加した言語エージェントの医療分析および患者医療への応用について述べる。

関連論文リスト

MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition [6.191248426050678]
臨床医学における治療的意思決定には、信頼できるバイオメディカル知識に基づく堅牢で多段階の推論が必要である。 TxAgentによって実証されたエージェントAI手法は、反復的検索強化生成(RAG)を通じてこれらの課題に対処する。本研究はCURE-Bench NeurIPS 2025 Challengeへの参加から得られた知見を提示する。
論文参考訳（メタデータ） (2025-12-12T16:01:48Z)
DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文参考訳（メタデータ） (2025-04-14T16:53:59Z)
TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。 TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文参考訳（メタデータ） (2025-03-26T15:58:16Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
ReflecTool: Towards Reflection-Aware Tool-Augmented Clinical Agents [22.596827147978598]
大規模言語モデル(LLM)は医療分野で有望な可能性を示している。 ClinicalAgent Bench (CAB) は、5つの重要な臨床次元にわたる18のタスクからなる総合的な医療エージェントベンチマークである。 ReflecToolはドメイン固有のツールを2段階以内で利用できる新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-23T08:19:18Z)
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文参考訳（メタデータ） (2024-05-13T17:38:53Z)
Advancing Healthcare Automation: Multi-Agent System for Medical Necessity Justification [0.0]
本稿では,LLMエージェントを利用したマルチエージェントシステム(MAS)の優先オーソライゼーションタスクの自動化について検討する。 GPT-4のチェックリストは,証拠による項目レベルの判断の精度が86.2%,総合的なチェックリスト判定の精度が95.6%であることを示す。
論文参考訳（メタデータ） (2024-04-27T18:40:05Z)
ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning [16.04933261211837]
大規模言語モデル(LLM)とマルチエージェントシステムは、自然言語処理において顕著な能力を示しているが、臨床試験では課題に直面している。臨床用マルチエージェントシステムである臨床エージェントシステム(ClinicalAgent)について紹介する。
論文参考訳（メタデータ） (2024-04-23T06:30:53Z)
Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文参考訳（メタデータ） (2024-04-06T15:50:19Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。 5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文参考訳（メタデータ） (2022-04-01T14:04:16Z)
Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。 MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文参考訳（メタデータ） (2021-04-12T18:11:17Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。