論文の概要: A Medical Multimodal Diagnostic Framework Integrating Vision-Language Models and Logic Tree Reasoning
- arxiv url: http://arxiv.org/abs/2512.21583v1
- Date: Thu, 25 Dec 2025 09:01:06 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:44.58137
- Title: A Medical Multimodal Diagnostic Framework Integrating Vision-Language Models and Logic Tree Reasoning
- Title(参考訳): 視覚言語モデルと論理木推論を統合した医用マルチモーダル診断フレームワーク
- Authors: Zelin Zang, Wenyi Gu, Siqi Ma, Dan Yang, Yue Shen, Zhu Zhang, Guohui Fan, Wing-Kuen Ling, Fuji Yang,
- Abstract要約: 視覚言語アライメントと論理正規化推論を組み合わせたLLaVAに基づく診断フレームワークを提案する。
提案手法は,テキストのみの設定では競争力を維持しつつ,マルチモーダルタスクにおいてより解釈可能な推論トレースが得られることを示す。
- 参考スコア(独自算出の注目度): 24.842846823884557
- License:
- Abstract: With the rapid growth of large language models (LLMs) and vision-language models (VLMs) in medicine, simply integrating clinical text and medical imaging does not guarantee reliable reasoning. Existing multimodal models often produce hallucinations or inconsistent chains of thought, limiting clinical trust. We propose a diagnostic framework built upon LLaVA that combines vision-language alignment with logic-regularized reasoning. The system includes an input encoder for text and images, a projection module for cross-modal alignment, a reasoning controller that decomposes diagnostic tasks into steps, and a logic tree generator that assembles stepwise premises into verifiable conclusions. Evaluations on MedXpertQA and other benchmarks show that our method improves diagnostic accuracy and yields more interpretable reasoning traces on multimodal tasks, while remaining competitive on text-only settings. These results suggest a promising step toward trustworthy multimodal medical AI.
- Abstract(参考訳): 医学における大規模言語モデル(LLMs)と視覚言語モデル(VLMs)の急速な成長に伴い、臨床テキストと医用画像の統合は信頼性の高い推論を保証しない。
既存のマルチモーダルモデルは、しばしば幻覚または一貫性のない思考の連鎖を生成し、臨床的な信頼を制限する。
視覚言語アライメントと論理正規化推論を組み合わせたLLaVAに基づく診断フレームワークを提案する。
システムには、テキストと画像用の入力エンコーダ、クロスモーダルアライメントのための投影モジュール、診断タスクをステップに分解する推論コントローラ、そして、ステップワイズな前提を検証可能な結論に組み立てるロジックツリージェネレータが含まれる。
MedXpertQAと他のベンチマークによる評価の結果、本手法は診断精度を向上し、テキストのみの設定で競合しながら、マルチモーダルタスク上でより解釈可能な推論トレースが得られることが示された。
これらの結果は、信頼できるマルチモーダル医療AIへの有望な一歩を示唆している。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models [26.152027922514957]
textscMedLAは、大規模な言語モデル上に構築されたロジック駆動のマルチエージェントフレームワークである。
エージェントはグラフ誘導の議論を行い、論理木を比較して反復的に洗練する。
textscMedLAは静的ロールベースシステムと単一エージェントベースラインの両方を一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-09-28T08:06:39Z) - Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning [13.783146290218738]
本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、およびマルチモーダル・チェーン・オブ・シント推論を統合する。
ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断推論をサポートする。
論文 参考訳(メタデータ) (2025-09-23T14:42:31Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Proof-of-TBI -- Fine-Tuned Vision Language Model Consortium and OpenAI-o3 Reasoning LLM-Based Medical Diagnosis Support System for Mild Traumatic Brain Injury (TBI) Prediction [1.1488411226515398]
視覚言語モデルとOpenAI-o3推論大言語モデル(LLM)を統合する医療診断支援システムProof-of-TBIを提案する。
TBI MRIスキャンのラベル付きデータセットを用いて、複数の視覚言語モデルに微調整を行い、TBIの症状を効果的に診断する訓練を行った。
このシステムは,優れた推論性能を示すモデルであるOpenAI-o3推論LPMを用いて,すべての微調整された視覚言語モデルからの予測を評価する。
論文 参考訳(メタデータ) (2025-04-25T19:49:30Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。