Fugu-MT 論文翻訳(概要): MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis

論文の概要: MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis

arxiv url: http://arxiv.org/abs/2408.10039v3
Date: Mon, 16 Dec 2024 09:33:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.723925
Title: MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis
Title（参考訳）: MSDiagnosis:多段階臨床診断における大規模言語モデルの評価ベンチマーク
Authors: Ruihui Hou, Shencheng Chen, Yongqi Fan, Guangya Yu, Lifeng Zhu, Jing Sun, Jingping Liu, Tong Ruan,
Abstract要約: われわれはMSDiagnosisと呼ばれる中国の臨床診断基準を提案する。このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。
参考スコア（独自算出の注目度）: 8.641421154025211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clinical diagnosis is critical in medical practice, typically requiring a continuous and evolving process that includes primary diagnosis, differential diagnosis, and final diagnosis. However, most existing clinical diagnostic tasks are single-step processes, which does not align with the complex multi-step diagnostic procedures found in real-world clinical settings. In this paper, we propose a Chinese clinical diagnostic benchmark, called MSDiagnosis. This benchmark consists of 2,225 cases from 12 departments, covering tasks such as primary diagnosis, differential diagnosis, and final diagnosis. Additionally, we propose a novel and effective framework. This framework combines forward inference, backward inference, reflection, and refinement, enabling the large language model to self-evaluate and adjust its diagnostic results. To this end, we test open-source models, closed-source models, and our proposed framework.The experimental results demonstrate the effectiveness of the proposed method. We also provide a comprehensive experimental analysis and suggest future research directions for this task.
Abstract（参考訳）: 臨床診断は医療実践において重要であり、通常、一次診断、鑑別診断、最終診断を含む継続的かつ進化的なプロセスを必要とする。しかし、既存の臨床診断タスクのほとんどは1段階のプロセスであり、実際の臨床現場で見られる複雑な多段階の診断手順とは一致しない。本稿では,MSDiagnosisと呼ばれる中国の臨床診断ベンチマークを提案する。このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。さらに,新規かつ効果的な枠組みを提案する。このフレームワークは、フォワード推論、後方推論、リフレクション、洗練を組み合わせ、大きな言語モデルがその診断結果を自己評価し調整することを可能にする。この目的のために、我々はオープンソースモデル、クローズドソースモデル、提案フレームワークを試験し、提案手法の有効性を実証した。また、包括的実験分析を行い、今後の研究の方向性を提案する。

関連論文リスト

RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文参考訳（メタデータ） (2025-06-17T03:10:33Z)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2025-05-20T09:14:53Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
Step-by-Step Guidance to Differential Anemia Diagnosis with Real-World Data and Deep Reinforcement Learning [1.5272023683653024]
臨床診断ガイドラインは、診断に到達するための重要な質問を概説する。本研究の目的は,電子カルテから学習し,正確な診断に最適な行動列を決定するモデルを開発することである。
論文参考訳（メタデータ） (2024-12-03T08:45:50Z)
Insight: A Multi-Modal Diagnostic Pipeline using LLMs for Ocular Surface Disease Diagnosis [17.970320199904084]
眼表面疾患の診断に大規模言語モデル(LLM)を用いた,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。これらの課題に対処するために,眼表面疾患の診断に大規模言語モデル(LLM)を用いることで,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
論文参考訳（メタデータ） (2024-10-01T00:23:05Z)
Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。 PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文参考訳（メタデータ） (2024-02-16T05:16:20Z)
Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文参考訳（メタデータ） (2024-01-29T12:25:30Z)
Medical Dialogue Generation via Intuitive-then-Analytical Differential Diagnosis [14.17497921394565]
Intuitive-then-Analytic Differential Diagnosis (IADDx) を用いた医用対話生成フレームワークを提案する。本手法は,検索に基づく直感的アソシエーション(直感的アソシエーション)によるディファレンス診断から始まり,その後,グラフ強化解析手法により精査する。提案手法の有効性を2つのデータセットで検証した。
論文参考訳（メタデータ） (2024-01-12T12:35:19Z)
Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales [15.362903610463285]
本稿では,素早い学習を通して診断過程を合理化する「推論認識」診断フレームワークを提案する。そこで本研究では,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。
論文参考訳（メタデータ） (2023-12-12T16:14:45Z)
A Foundational Framework and Methodology for Personalized Early and Timely Diagnosis [84.6348989654916]
本稿では,早期診断とタイムリー診断のための基礎的枠組みを提案する。診断過程を概説する決定論的アプローチに基づいている。機械学習と統計手法を統合し、最適なパーソナライズされた診断経路を推定する。
論文参考訳（メタデータ） (2023-11-26T14:42:31Z)
OpenClinicalAI: An Open and Dynamic Model for Alzheimer's Disease Diagnosis [11.775648630734949]
アルツハイマー病(AD)は逆転や治癒はできないが、タイムリーな診断は治療やケアの負担を大幅に軽減することができる。 AD診断モデルに関する現在の研究は、診断タスクを典型的な分類タスクと見なしている。複雑で不確実な臨床環境下での直接AD診断のためのOpenClinicalAIを提案する。
論文参考訳（メタデータ） (2023-07-03T12:35:03Z)
A Transformer-based representation-learning model with unified processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文参考訳（メタデータ） (2023-06-01T16:23:47Z)
BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文参考訳（メタデータ） (2021-10-05T19:14:46Z)
Anytime Diagnosis for Reconfiguration [52.77024349608834]
我々は、いつでも直接診断できるflexdiagを紹介し分析する。特徴モデルの領域からの構成ベンチマークと自動車領域からの産業構成知識ベースを使用して、性能および診断品質に関するアルゴリズムを評価します。
論文参考訳（メタデータ） (2021-02-19T11:45:52Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。