論文の概要: MedPrompt: LLM-CNN Fusion with Weight Routing for Medical Image Segmentation and Classification
- arxiv url: http://arxiv.org/abs/2506.21199v1
- Date: Thu, 26 Jun 2025 12:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.083465
- Title: MedPrompt: LLM-CNN Fusion with Weight Routing for Medical Image Segmentation and Classification
- Title(参考訳): MedPrompt: LLM-CNN Fusion for Weight Routing for Medical Image Segmentation and Classification
- Authors: Shadman Sobhan, Kazi Abrar Mahmud, Abduz Zami,
- Abstract要約: 我々はMedPromptを紹介した。このフレームワークは、高レベルなタスクプランニングのためのLarge Language Model(Llama-4-17B)と低レベルの画像処理のためのモジュラー畳み込みニューラルネットワーク(DeepFusionLab)を組み合わせた統合フレームワークである。
このシステムは、プロンプト駆動命令の実行と解釈において、平均遅延2.5秒で97%のエンドツーエンドの正確性を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current medical image analysis systems are typically task-specific, requiring separate models for classification and segmentation, and lack the flexibility to support user-defined workflows. To address these challenges, we introduce MedPrompt, a unified framework that combines a few-shot prompted Large Language Model (Llama-4-17B) for high-level task planning with a modular Convolutional Neural Network (DeepFusionLab) for low-level image processing. The LLM interprets user instructions and generates structured output to dynamically route task-specific pretrained weights. This weight routing approach avoids retraining the entire framework when adding new tasks-only task-specific weights are required, enhancing scalability and deployment. We evaluated MedPrompt across 19 public datasets, covering 12 tasks spanning 5 imaging modalities. The system achieves a 97% end-to-end correctness in interpreting and executing prompt-driven instructions, with an average inference latency of 2.5 seconds, making it suitable for near real-time applications. DeepFusionLab achieves competitive segmentation accuracy (e.g., Dice 0.9856 on lungs) and strong classification performance (F1 0.9744 on tuberculosis). Overall, MedPrompt enables scalable, prompt-driven medical imaging by combining the interpretability of LLMs with the efficiency of modular CNNs.
- Abstract(参考訳): 現在の医療画像分析システムは一般にタスク固有であり、分類とセグメンテーションのための別々のモデルが必要であり、ユーザ定義ワークフローをサポートする柔軟性が欠如している。
これらの課題に対処するため、MedPromptは、高レベルなタスクプランニングのためのLarge Language Model(Llama-4-17B)と低レベルの画像処理のためのモジュラー畳み込みニューラルネットワーク(DeepFusionLab)を組み合わせた統合フレームワークである。
LLMはユーザ命令を解釈し、動的にタスク固有の事前訓練重みをルーティングする構造化出力を生成する。
この重み付けルーティングアプローチは、新しいタスクのみのタスク固有の重み付けが必要な場合、フレームワーク全体の再トレーニングを回避し、スケーラビリティとデプロイメントを向上する。
我々は、MedPromptを19の公開データセットで評価し、5つの画像モダリティにまたがる12のタスクをカバーした。
このシステムは、プロンプト駆動命令の解釈と実行において、97%のエンドツーエンドの正確性を達成し、平均推論遅延は2.5秒であり、ほぼリアルタイムなアプリケーションに適している。
DeepFusionLabは、競合セグメンテーションの精度(肺ではDice 0.9856)と強い分類性能(結核ではF1 0.9744)を達成する。
全体として、MedPromptはLLMの解釈可能性とモジュラーCNNの効率を組み合わせることで、スケーラブルで即時駆動の医療画像を可能にする。
関連論文リスト
- Domain and Task-Focused Example Selection for Data-Efficient Contrastive Medical Image Segmentation [0.2765106384328772]
医用画像セグメンテーションのための自己教師型コントラスト学習フレームワークであるPolyCLを提案する。
PolyCLは、革新的なサロゲートからのセグメンテーションに有用なコンテキスト対応の識別機能を学習し、伝達する。
PolyCLは、低データとクロスドメインの両方のシナリオにおいて、完全な教師付きベースラインと自己教師付きベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-05-25T16:11:48Z) - AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models [7.382887784956608]
本稿では,視覚言語とセグメンテーション基礎モデルを組み合わせたゼロショット自動セグメンテーションパイプラインを提案する。
適切な分解とテスト時間適応により、我々の完全自動パイプラインは、弱い確率で対話的な基礎モデルと競争的に機能する。
論文 参考訳(メタデータ) (2025-05-23T14:07:21Z) - CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。
当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。
パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks [1.0599607477285327]
本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。
広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。
論文 参考訳(メタデータ) (2024-05-10T02:23:56Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。