Fugu-MT 論文翻訳(概要): ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

論文の概要: ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

arxiv url: http://arxiv.org/abs/2504.20930v1
Date: Tue, 29 Apr 2025 16:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.999377
Title: ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification
Title（参考訳）: ChestX-Reasoner: ステップバイステップ検証による推論による放射線学基礎モデルの改善
Authors: Ziqing Fan, Cheng Liang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie,
Abstract要約: ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
参考スコア（独自算出の注目度）: 57.22053411719822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in reasoning-enhanced large language models (LLMs) and multimodal LLMs (MLLMs) have significantly improved performance in complex tasks, yet medical AI models often overlook the structured reasoning processes inherent in clinical practice. In this work, we present ChestX-Reasoner, a radiology diagnosis MLLM designed to leverage process supervision mined directly from clinical reports, reflecting the step-by-step reasoning followed by radiologists. We construct a large dataset by extracting and refining reasoning chains from routine radiology reports. Our two-stage training framework combines supervised fine-tuning and reinforcement learning guided by process rewards to better align model reasoning with clinical standards. We introduce RadRBench-CXR, a comprehensive benchmark featuring 59K visual question answering samples with 301K clinically validated reasoning steps, and propose RadRScore, a metric evaluating reasoning factuality, completeness, and effectiveness. ChestX-Reasoner outperforms existing medical and general-domain MLLMs in both diagnostic accuracy and reasoning ability, achieving 16%, 5.9%, and 18% improvements in reasoning ability compared to the best medical MLLM, the best general MLLM, and its base model, respectively, as well as 3.3%, 24%, and 27% improvements in outcome accuracy. All resources are open-sourced to facilitate further research in medical reasoning MLLMs.
Abstract（参考訳）: 推論強化大言語モデル(LLM)とマルチモーダルLLM(MLLM)の最近の進歩は、複雑なタスクのパフォーマンスを著しく向上させているが、医療AIモデルは、臨床実践に固有の構造化推論プロセスを見落としていることが多い。本研究は,臨床報告から直接抽出したプロセス管理を活用するために設計された放射線診断MLLMであるChestX-Reasonerについて述べる。我々は,通常の放射線学報告から推論鎖を抽出し,精製することで,大規模なデータセットを構築した。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。 RadRBench-CXRは、59Kの視覚的質問応答サンプルと301Kの臨床的に検証された推論ステップを組み合わせた総合的なベンチマークであり、推論の事実性、完全性、有効性を評価する指標であるRadRScoreを提案する。 ChestX-Reasonerは、診断精度と推論能力の両方で既存の医学的および一般ドメインMLLMよりも優れており、最高の医学的MLLM、最高の一般MLLMおよびベースモデルと比較して、推論能力が16%、5.9%、および18%向上しており、結果精度は3.3%、24%、そして27%向上している。全ての資源は、医学的推論MLLMの研究を促進するためにオープンソース化されている。

関連論文リスト

CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning [28.737391224748798]
胸部X線(CXR)課題に対するインターリーブ"思考答え"推論を実現するための最初の生成モデルであるCX-Mindを提案する。 CX-Mindはカリキュラム強化学習と検証プロセス報酬(RL-VPR)によって駆動される CX-Mindは、視覚的理解、テキスト生成、アライメントにおいて、既存の医用および一般ドメインMLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-07-31T05:07:18Z)
LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer [12.795639054336226]
直腸癌リンパ節転移の術前評価は治療決定を導く。一部の人工知能モデルはブラックボックスとして機能し、臨床信頼に必要な解釈性に欠ける。 LLM-Driven Multi-node Ranking frameworkであるLRMRを紹介する。
論文参考訳（メタデータ） (2025-07-15T16:29:45Z)
Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation [2.821158017021184]
Look & Mark (L&M) は、放射線医学的アイフィクス(Look)とバウンディングボックスアノテーション(Mark)を統合した新しい接地固定戦略である。 LLaVA-OVは87.3%の臨床平均成績(C.AVG)を達成しており、L&Mとインコンテキストラーニングを組み合わせた汎用モデルもすべてのモデルの中で最高である。
論文参考訳（メタデータ） (2025-05-28T10:54:40Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation [25.070570876478417]
胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。現在の医療用LMM(MLMM)は,(1)地域レベルでの理解と相互作用が不十分なこと,(2)単一段階の推論による限定的な解釈可能性の2つの課題に直面している。
論文参考訳（メタデータ） (2025-05-05T17:57:07Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fine-Tuning Open-Source Large Language Models to Improve Their Performance on Radiation Oncology Tasks: A Feasibility Study to Investigate Their Potential Clinical Applications in Radiation Oncology [23.986096971629777]
大規模言語モデルは、複雑なテキスト情報を処理する際、顕著な能力を示した。本研究の目的は、ドメイン知識を持つ微調整LDMがタスクの性能を向上させるかどうかを検討することである。片面のウィルコクソンサインランク試験は、統計的に結果を分析するために使用された。
論文参考訳（メタデータ） (2025-01-28T20:37:32Z)
MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。 Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文参考訳（メタデータ） (2024-08-13T01:30:03Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches [7.3384872719063114]
我々は,Llama-2アーキテクチャに基づく医療用大規模言語モデル(LLM)を開発し,改良した。本実験は,様々な医用ベンチマークを用いて,これらのチューニング戦略の有効性を体系的に評価した。
論文参考訳（メタデータ） (2024-04-23T06:36:21Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Advancing Radiograph Representation Learning with Masked Record Modeling [52.04899592688968]
我々は2つの相補的な目的として自己と報告の補完を定式化し、マスク付きレコードモデリング(MRM)に基づく統一的な枠組みを提案する。 MRMは、知識強化されたセマンティック表現を学ぶためのマルチタスクスキームに従って、マスクされた画像パッチとマスクされたレポートトークンを再構築する。具体的には、MRMはラベル効率の良い微調整において優れた性能を提供する。
論文参考訳（メタデータ） (2023-01-30T18:33:32Z)
Machine Learning and Glioblastoma: Treatment Response Monitoring Biomarkers in 2021 [0.3266995794795542]
組織的検討の目的は,成人のグリオブラスト腫治療反応モニタリングバイオマーカーの診断検査精度に関する最近の研究を評価することである。 MRI機能を使用して進行と模倣を区別する機械学習モデルの良好な診断性能がある可能性が高い。暗黙的特徴を用いたMLの診断性能は明示的特徴を用いたMLよりも優れていなかった。
論文参考訳（メタデータ） (2021-04-15T10:49:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。