Fugu-MT 論文翻訳(概要): Can Modern LLMs Act as Agent Cores in Radiology Environments?

論文の概要: Can Modern LLMs Act as Agent Cores in Radiology Environments?

arxiv url: http://arxiv.org/abs/2412.09529v2
Date: Thu, 19 Dec 2024 03:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 14:17:19.70513
Title: Can Modern LLMs Act as Agent Cores in Radiology Environments?
Title（参考訳）: 現代LSMは放射線学環境におけるエージェントコアとして機能するか?
Authors: Qiaoyu Zheng, Chaoyi Wu, Pengcheng Qiu, Lisong Dai, Ya Zhang, Yanfeng Wang, Weidi Xie,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる精度と解釈性の向上を提供する。本論文は, コンクリートラジオロジー剤構築の前提条件について検討することを目的とする。 LLMをベースとしたエージェントのための総合的な総合的総合評価データセットRadABench-Dataを提案する。第二にRadABench-EvalPlatは、プロンプト駆動ワークフローを特徴とするエージェントのための新しい評価プラットフォームである。
参考スコア（独自算出の注目度）: 54.36730060680139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advancements in large language models (LLMs) have paved the way for LLM-based agent systems that offer enhanced accuracy and interpretability across various domains. Radiology, with its complex analytical requirements, is an ideal field for the application of these agents. This paper aims to investigate the pre-requisite question for building concrete radiology agents which is, `Can modern LLMs act as agent cores in radiology environments?' To investigate it, we introduce RadABench with three-fold contributions: First, we present RadABench-Data, a comprehensive synthetic evaluation dataset for LLM-based agents, generated from an extensive taxonomy encompassing 6 anatomies, 5 imaging modalities, 10 tool categories, and 11 radiology tasks. Second, we propose RadABench-EvalPlat, a novel evaluation platform for agents featuring a prompt-driven workflow and the capability to simulate a wide range of radiology toolsets. Third, we assess the performance of 7 leading LLMs on our benchmark from 5 perspectives with multiple metrics. Our findings indicate that while current LLMs demonstrate strong capabilities in many areas, they are still not sufficiently advanced to serve as the central agent core in a fully operational radiology agent system. Additionally, we identify key factors influencing the performance of LLM-based agent cores, offering insights for clinicians on how to apply agent systems in real-world radiology practices effectively. All of our code and data are open-sourced in https://github.com/MAGIC-AI4Med/RadABench.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、様々な領域にわたる精度と解釈性を高めるLLMベースのエージェントシステムへの道を開いた。ラジオロジーは複雑な解析的要求を持つため、これらのエージェントの応用には理想的な分野である。本稿は,「現代LLMは放射線学環境におけるエージェントコアとして機能するのか?」という,具体的な放射線学エージェント構築の前提課題について検討することを目的とする。まず,6つの解剖学,5つの画像モダリティ,10のツールカテゴリ,11の放射線学タスクを含む広範な分類学から生成された,LDMベースのエージェントの総合的な総合的な総合的な総合的評価データセットであるRadABench-Dataを紹介する。第二にRadABench-EvalPlatは、プロンプト駆動ワークフローと幅広い放射線学ツールセットをシミュレートする機能を備えたエージェントのための新しい評価プラットフォームである。第3に、ベンチマークで7つの主要なLCMのパフォーマンスを、複数のメトリクスで5つの視点から評価する。以上の結果から,現在のLSMは,多くの領域で強力な機能を示すが,完全に動作する放射線治療システムにおいて,中核として機能するほど十分には進歩していないことが示唆された。さらに, LLMをベースとしたエージェントコアの性能に影響を及ぼす重要な要因を同定し, 実世界の放射線学の実践にエージェントシステムを効果的に適用する方法について, 臨床医に洞察を提供する。すべてのコードとデータはhttps://github.com/MAGIC-AI4Med/RadABench.comでオープンソース化されています。

関連論文リスト

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
Agentic large language models improve retrieval-based radiology question answering [4.340742745938289]
エージェント検索はゼロショットプロンプトよりも平均診断精度が有意に向上した。最大の利益は中型モデルで発生した。臨床的に微調整されたモデルでさえ、有意義な改善が見られた。
論文参考訳（メタデータ） (2025-08-01T16:18:52Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents [20.96732566767587]
最近の大規模言語モデル(LLM)は、特にエージェントとして機能する能力において顕著な進歩を見せている。 MedAgentBenchは、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートである。環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。
論文参考訳（メタデータ） (2025-01-24T17:21:01Z)
Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System [10.502391082887568]
RadCouncil(ラッドクンシル)は、発見部からの放射線学レポートにおける印象の生成を促進するために設計された多言語大言語モデル(LLM)フレームワークである。 RadCouncilは、(1)ベクターデータベースから類似のレポートを識別して検索するRetrievalエージェント、(2)所定のレポートの発見セクションに基づいて印象を生成するRadiologistエージェント、及び、検索エージェントが検索した先行レポートと、(3)生成されたインプレッションを評価し、フィードバックを提供するReviewerエージェントの3つの特殊エージェントから構成される。
論文参考訳（メタデータ） (2024-12-06T21:33:03Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
Best Practices for Large Language Models in Radiology [4.972411560978282]
様々な活動の鍵は、言語へのニュアンスな適用である。大型言語モデル(LLM)の出現は、放射線学における膨大なデータの管理と解釈を改善する機会を提供する。
論文参考訳（メタデータ） (2024-12-02T07:54:55Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文参考訳（メタデータ） (2024-10-12T19:36:41Z)
AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow [33.8495939261319]
本稿では,AIPatient Knowledge Graph (AIPatient KG) を入力とし,生成バックボーンとしてReasoning Retrieval-Augmented Generation (RAG) を開発した。 Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。 ANOVA F-value 0.6126, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.6126, p>0.1)。
論文参考訳（メタデータ） (2024-09-27T17:17:15Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。 Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文参考訳（メタデータ） (2024-08-13T01:30:03Z)
Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs [22.568925103893182]
我々は、強化学習(RL)と大言語モデル(LLM)を統合することにより、オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。 PharmaSimTextは、診断会話を実践するために設計された、PharmaSim仮想薬局環境から派生した新しいベンチマークである。以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。
論文参考訳（メタデータ） (2024-04-29T14:53:48Z)
Exploring LLM Multi-Agents for ICD Coding [15.730751450511333]
ICD符号化のためのマルチエージェント方式は実世界の符号化プロセスを効果的に模倣し、一般的な符号と稀な符号の両方の性能を向上させる。提案手法は, 事前学習や微調整を必要とする最先端のICD符号化手法に匹敵する結果を得るとともに, 稀なコード精度, 説明可能性で性能を向上する。
論文参考訳（メタデータ） (2024-04-01T15:17:39Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文参考訳（メタデータ） (2023-11-27T14:49:06Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
Preoperative brain tumor imaging: models and software for segmentation and standardized reporting [0.0]
症例は4例のコホートで, グリオーマ, 下等グリオーマ, 髄膜腫, 転移について検討した。腫瘍セグメンテーションモデルは、AGU-Netアーキテクチャを使って、異なる前処理ステップとプロトコルで訓練された。 2つのソフトウェアソリューションが開発され、トレーニングされたモデルと標準化された臨床報告を簡単に利用できるようになった。
論文参考訳（メタデータ） (2022-04-29T16:29:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。