論文の概要: How Well Can Modern LLMs Act as Agent Cores in Radiology Environments?
- arxiv url: http://arxiv.org/abs/2412.09529v3
- Date: Tue, 08 Apr 2025 01:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:26.467604
- Title: How Well Can Modern LLMs Act as Agent Cores in Radiology Environments?
- Title(参考訳): 放射線学環境におけるエージェントコアとしてのLLMの作用
- Authors: Qiaoyu Zheng, Chaoyi Wu, Pengcheng Qiu, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
- 参考スコア(独自算出の注目度): 54.36730060680139
- License:
- Abstract: We introduce RadA-BenchPlat, an evaluation platform that benchmarks the performance of large language models (LLMs) act as agent cores in radiology environments using 2,200 radiologist-verified synthetic patient records covering six anatomical regions, five imaging modalities, and 2,200 disease scenarios, resulting in 24,200 question-answer pairs that simulate diverse clinical situations. The platform also defines ten categories of tools for agent-driven task solving and evaluates seven leading LLMs, revealing that while models like Claude-3.7-Sonnet can achieve a 67.1% task completion rate in routine settings, they still struggle with complex task understanding and tool coordination, limiting their capacity to serve as the central core of automated radiology systems. By incorporating four advanced prompt engineering strategies--where prompt-backpropagation and multi-agent collaboration contributed 16.8% and 30.7% improvements, respectively--the performance for complex tasks was enhanced by 48.2% overall. Furthermore, automated tool building was explored to improve robustness, achieving a 65.4% success rate, thereby offering promising insights for the future integration of fully automated radiology applications into clinical practice. All of our code and data are openly available at https://github.com/MAGIC-AI4Med/RadABench.
- Abstract(参考訳): RadA-BenchPlatは,6つの解剖学的領域,5つの画像モダリティ,2200の疾患シナリオを対象とし,放射線学環境におけるエージェントコアとして機能する大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
このプラットフォームはまたエージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価し、Claude-3.7-Sonnetのようなモデルがルーチン設定で67.1%のタスク完了率を達成できる一方で、複雑なタスク理解とツール調整に苦慮し、自動放射線学システムの中核として機能する能力を制限することを明らかにした。
プロンプトバックプロパゲーションとマルチエージェントのコラボレーションによって、それぞれ16.8%と30.7%の改善が達成され、複雑なタスクのパフォーマンスが48.2%向上した。
さらに、ロバスト性を改善するため、65.4%の成功率を達成し、完全自動化放射線学を臨床に組み込むための有望な洞察を提供する自動化ツールの構築も検討された。
私たちのコードとデータは、https://github.com/MAGIC-AI4Med/RadABench.comで公開されています。
関連論文リスト
- MedRAX: Medical Reasoning Agent for Chest X-ray [3.453950193734893]
胸部X線(CXR)は、疾患管理や患者のケアにおいて重要な決定を下す上で重要な役割を果たしている。
我々は、最先端のCXR分析ツールとマルチモーダルな大規模言語モデルをシームレスに統合した、初めての汎用AIエージェントであるMedRAXを紹介する。
論文 参考訳(メタデータ) (2025-02-04T19:31:00Z) - Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System [10.502391082887568]
RadCouncil(ラッドクンシル)は、発見部からの放射線学レポートにおける印象の生成を促進するために設計された多言語大言語モデル(LLM)フレームワークである。
RadCouncilは、(1)ベクターデータベースから類似のレポートを識別して検索するRetrievalエージェント、(2)所定のレポートの発見セクションに基づいて印象を生成するRadiologistエージェント、及び、検索エージェントが検索した先行レポートと、(3)生成されたインプレッションを評価し、フィードバックを提供するReviewerエージェントの3つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2024-12-06T21:33:03Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Best Practices for Large Language Models in Radiology [4.972411560978282]
様々な活動の鍵は、言語へのニュアンスな適用である。
大型言語モデル(LLM)の出現は、放射線学における膨大なデータの管理と解釈を改善する機会を提供する。
論文 参考訳(メタデータ) (2024-12-02T07:54:55Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback [10.826651024680169]
放射線技師は医療画像を医療報告に翻訳することで重要な役割を担っている。
視覚言語モデル(VLM)を用いた自動アプローチは、アシスタントとして有望であるが、非常に高い精度を必要とする。
胸部X線(CXR)レポート生成に着目し,放射線学におけるVLMの自動選好アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T16:07:11Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs [22.568925103893182]
我々は、強化学習(RL)と大言語モデル(LLM)を統合することにより、オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。
PharmaSimTextは、診断会話を実践するために設計された、PharmaSim仮想薬局環境から派生した新しいベンチマークである。
以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。
論文 参考訳(メタデータ) (2024-04-29T14:53:48Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。