論文の概要: DL$^3$M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13742v1
- Date: Sun, 14 Dec 2025 21:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.417224
- Title: DL$^3$M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models
- Title(参考訳): DL$3$M:ディープラーニングと大規模言語モデルによるエキスパートレベル医療推論のためのビジョン・ツー・ランゲージ・フレームワーク
- Authors: Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo, Md. Mahadi Hasan Ankon, Sunanda Das, Nazmul Siddique, Hui Wang,
- Abstract要約: 大きな言語モデルは臨床テキストを生成することができるが、視覚的推論に苦慮している。
本稿では,画像分類と構造的臨床推論を結びつける枠組みを提案する。
MobileCoAtNetは内視鏡画像用に設計されており、8つの胃関連クラスで高い精度を実現している。
- 参考スコア(独自算出の注目度): 1.8203776786041292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image classifiers detect gastrointestinal diseases well, but they do not explain their decisions. Large language models can generate clinical text, yet they struggle with visual reasoning and often produce unstable or incorrect explanations. This leaves a gap between what a model sees and the type of reasoning a clinician expects. We introduce a framework that links image classification with structured clinical reasoning. A new hybrid model, MobileCoAtNet, is designed for endoscopic images and achieves high accuracy across eight stomach-related classes. Its outputs are then used to drive reasoning by several LLMs. To judge this reasoning, we build two expert-verified benchmarks covering causes, symptoms, treatment, lifestyle, and follow-up care. Thirty-two LLMs are evaluated against these gold standards. Strong classification improves the quality of their explanations, but none of the models reach human-level stability. Even the best LLMs change their reasoning when prompts vary. Our study shows that combining DL with LLMs can produce useful clinical narratives, but current LLMs remain unreliable for high-stakes medical decisions. The framework provides a clearer view of their limits and a path for building safer reasoning systems. The complete source code and datasets used in this study are available at https://github.com/souravbasakshuvo/DL3M.
- Abstract(参考訳): 医用画像分類器は消化器疾患をよく検出するが、その決定は説明できない。
大きな言語モデルは臨床テキストを生成することができるが、視覚的推論に苦慮し、しばしば不安定または誤った説明を生成する。
これは、モデルが見ているものと、臨床医が期待する推論のタイプの間にギャップを残します。
本稿では,画像分類と構造的臨床推論を結びつける枠組みを提案する。
新しいハイブリッドモデルMobileCoAtNetは内視鏡画像用に設計され、8つの胃関連クラスで高い精度を実現する。
出力は複数のLSMの推論に使用される。
この理由を判断するために、原因、症状、治療、ライフスタイル、フォローアップケアに関する専門家による2つのベンチマークを構築します。
これらの金の基準に対して32個のLDMが評価される。
強い分類によって説明の質が向上するが、いずれのモデルも人間レベルの安定性には達しない。
最高のLCMでさえ、プロンプトが変わると推論を変える。
本研究は,DLとLCMの併用が有用であることを示すものであるが,現在のLCMは高い医療判断には信頼性が低いままである。
このフレームワークは、その限界のより明確なビューと、より安全な推論システムを構築するためのパスを提供する。
この研究で使用される完全なソースコードとデータセットは、https://github.com/souravbasakshuvo/DL3Mで入手できる。
関連論文リスト
- Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow [43.82288530883818]
EH-Benchmarkは、医学大言語モデルにおける幻覚を評価するために設計された新しい眼科ベンチマークである。
特定のタスクとエラータイプに基づいて幻覚を視覚的理解と論理的構成の2つの主要クラスに分類する。
我々のフレームワークは、両方の幻覚、精度、解釈可能性、信頼性を著しく軽減します。
論文 参考訳(メタデータ) (2025-07-24T12:07:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。