Fugu-MT 論文翻訳(概要): Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

論文の概要: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

arxiv url: http://arxiv.org/abs/2506.16962v1
Date: Fri, 20 Jun 2025 12:51:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.448319
Title: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
Title（参考訳）: MLLMにおけるStep-by-StepおよびVerible Medical Reasoningの強化
Authors: Haoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang,
Abstract要約: 我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
参考スコア（独自算出の注目度）: 23.50838763761289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have begun to demonstrate robust reasoning capabilities on general tasks, yet their application in the medical domain remains in its early stages. Constructing chain-of-thought (CoT) training data is essential for bolstering the reasoning abilities of medical MLLMs. However, existing approaches exhibit a deficiency in offering a comprehensive framework for searching and evaluating effective reasoning paths towards critical diagnosis. To address this challenge, we propose Mentor-Intern Collaborative Search (MICS), a novel reasoning-path searching scheme to generate rigorous and effective medical CoT data. MICS first leverages mentor models to initialize the reasoning, one step at a time, then prompts each intern model to continue the thinking along those initiated paths, and finally selects the optimal reasoning path according to the overall reasoning performance of multiple intern models. The reasoning performance is determined by an MICS-Score, which assesses the quality of generated reasoning paths. Eventually, we construct MMRP, a multi-task medical reasoning dataset with ranked difficulty, and Chiron-o1, a new medical MLLM devised via a curriculum learning strategy, with robust visual question-answering and generalizable reasoning capabilities. Extensive experiments demonstrate that Chiron-o1, trained on our CoT dataset constructed using MICS, achieves state-of-the-art performance across a list of medical visual question answering and reasoning benchmarks. Codes are available at GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。医療MLLMの推論能力を高めるためには,チェーン・オブ・シント(CoT)トレーニングデータの構築が不可欠である。しかし、既存のアプローチでは、診断に有効な推論経路を探索し、評価するための包括的な枠組みを提供していない。この課題に対処するために、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。 MICSはまずメンターモデルを利用して推論を1ステップずつ初期化し、次に各インターンモデルにこれらの開始経路に沿って思考を継続するよう促し、最後に複数のインターンモデルの全体的な推論性能に応じて最適な推論経路を選択する。推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された、堅牢な視覚的質問応答と一般化可能な推論機能を備えた新しい医療MLLMであるChiron-o1を構築した。 MICSを用いて構築したCoTデータセットに基づいてトレーニングされたChiron-o1は、医学的な視覚的質問応答と推論ベンチマークのリストを通じて最先端のパフォーマンスを実現している。 manglu097/Chiron-o1: MLLMにおけるステップバイステップと検証可能な医療推論の強化

関連論文リスト

Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
PathCoT: Chain-of-Thought Prompting for Zero-shot Pathology Visual Reasoning [20.767097964324172]
視覚的推論タスクのための新しいゼロショット・チェーン・オブ・シークレット・プロンプト手法であるPathCoTを提案する。 PathCoTはMLLMの事前の知識をガイドし、画像の総合的な分析とドメイン固有の知識を提供する。 PathMMUデータセットの実験結果から,本手法が病態の視覚的理解と推論に与える影響が示された。
論文参考訳（メタデータ） (2025-06-18T09:20:23Z)
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [44.96018028534255]
ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
論文参考訳（メタデータ） (2025-06-11T08:36:55Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering [24.43605359639671]
我々はMedQA-USMLEデータセットの修正版であるMedQA-OPENを提案する。臨床シナリオを模倣する選択肢のないオープンエンドの医療質問と、臨床者が承認した理性的な回答を含んでいる。思考の連鎖(CoT)推論(CLINICR)によって駆動されるプロンプトを実装し,漸進的推論の過程を反映する。
論文参考訳（メタデータ） (2024-03-07T20:48:40Z)
RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文参考訳（メタデータ） (2024-02-19T06:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。