論文の概要: Can Modern LLMs Act as Agent Cores in Radiology Environments?
- arxiv url: http://arxiv.org/abs/2412.09529v2
- Date: Thu, 19 Dec 2024 03:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:17.613935
- Title: Can Modern LLMs Act as Agent Cores in Radiology Environments?
- Title(参考訳): 現代LSMは放射線学環境におけるエージェントコアとして機能するか?
- Authors: Qiaoyu Zheng, Chaoyi Wu, Pengcheng Qiu, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる精度と解釈性の向上を提供する。
本論文は, コンクリートラジオロジー剤構築の前提条件について検討することを目的とする。
LLMをベースとしたエージェントのための総合的な総合的総合評価データセットRadABench-Dataを提案する。
第二にRadABench-EvalPlatは、プロンプト駆動ワークフローを特徴とするエージェントのための新しい評価プラットフォームである。
- 参考スコア(独自算出の注目度): 54.36730060680139
- License:
- Abstract: Advancements in large language models (LLMs) have paved the way for LLM-based agent systems that offer enhanced accuracy and interpretability across various domains. Radiology, with its complex analytical requirements, is an ideal field for the application of these agents. This paper aims to investigate the pre-requisite question for building concrete radiology agents which is, `Can modern LLMs act as agent cores in radiology environments?' To investigate it, we introduce RadABench with three-fold contributions: First, we present RadABench-Data, a comprehensive synthetic evaluation dataset for LLM-based agents, generated from an extensive taxonomy encompassing 6 anatomies, 5 imaging modalities, 10 tool categories, and 11 radiology tasks. Second, we propose RadABench-EvalPlat, a novel evaluation platform for agents featuring a prompt-driven workflow and the capability to simulate a wide range of radiology toolsets. Third, we assess the performance of 7 leading LLMs on our benchmark from 5 perspectives with multiple metrics. Our findings indicate that while current LLMs demonstrate strong capabilities in many areas, they are still not sufficiently advanced to serve as the central agent core in a fully operational radiology agent system. Additionally, we identify key factors influencing the performance of LLM-based agent cores, offering insights for clinicians on how to apply agent systems in real-world radiology practices effectively. All of our code and data are open-sourced in https://github.com/MAGIC-AI4Med/RadABench.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、様々な領域にわたる精度と解釈性を高めるLLMベースのエージェントシステムへの道を開いた。
ラジオロジーは複雑な解析的要求を持つため、これらのエージェントの応用には理想的な分野である。
本稿は,「現代LLMは放射線学環境におけるエージェントコアとして機能するのか?」という,具体的な放射線学エージェント構築の前提課題について検討することを目的とする。
まず,6つの解剖学,5つの画像モダリティ,10のツールカテゴリ,11の放射線学タスクを含む広範な分類学から生成された,LDMベースのエージェントの総合的な総合的な総合的な総合的評価データセットであるRadABench-Dataを紹介する。
第二にRadABench-EvalPlatは、プロンプト駆動ワークフローと幅広い放射線学ツールセットをシミュレートする機能を備えたエージェントのための新しい評価プラットフォームである。
第3に、ベンチマークで7つの主要なLCMのパフォーマンスを、複数のメトリクスで5つの視点から評価する。
以上の結果から,現在のLSMは,多くの領域で強力な機能を示すが,完全に動作する放射線治療システムにおいて,中核として機能するほど十分には進歩していないことが示唆された。
さらに, LLMをベースとしたエージェントコアの性能に影響を及ぼす重要な要因を同定し, 実世界の放射線学の実践にエージェントシステムを効果的に適用する方法について, 臨床医に洞察を提供する。
すべてのコードとデータはhttps://github.com/MAGIC-AI4Med/RadABench.comでオープンソース化されています。
関連論文リスト
- MedRAX: Medical Reasoning Agent for Chest X-ray [3.453950193734893]
胸部X線(CXR)は、疾患管理や患者のケアにおいて重要な決定を下す上で重要な役割を果たしている。
我々は、最先端のCXR分析ツールとマルチモーダルな大規模言語モデルをシームレスに統合した、初めての汎用AIエージェントであるMedRAXを紹介する。
論文 参考訳(メタデータ) (2025-02-04T19:31:00Z) - Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System [10.502391082887568]
RadCouncil(ラッドクンシル)は、発見部からの放射線学レポートにおける印象の生成を促進するために設計された多言語大言語モデル(LLM)フレームワークである。
RadCouncilは、(1)ベクターデータベースから類似のレポートを識別して検索するRetrievalエージェント、(2)所定のレポートの発見セクションに基づいて印象を生成するRadiologistエージェント、及び、検索エージェントが検索した先行レポートと、(3)生成されたインプレッションを評価し、フィードバックを提供するReviewerエージェントの3つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2024-12-06T21:33:03Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Best Practices for Large Language Models in Radiology [4.972411560978282]
様々な活動の鍵は、言語へのニュアンスな適用である。
大型言語モデル(LLM)の出現は、放射線学における膨大なデータの管理と解釈を改善する機会を提供する。
論文 参考訳(メタデータ) (2024-12-02T07:54:55Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback [10.826651024680169]
放射線技師は医療画像を医療報告に翻訳することで重要な役割を担っている。
視覚言語モデル(VLM)を用いた自動アプローチは、アシスタントとして有望であるが、非常に高い精度を必要とする。
胸部X線(CXR)レポート生成に着目し,放射線学におけるVLMの自動選好アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T16:07:11Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs [22.568925103893182]
我々は、強化学習(RL)と大言語モデル(LLM)を統合することにより、オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。
PharmaSimTextは、診断会話を実践するために設計された、PharmaSim仮想薬局環境から派生した新しいベンチマークである。
以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。
論文 参考訳(メタデータ) (2024-04-29T14:53:48Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。