論文の概要: Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning
- arxiv url: http://arxiv.org/abs/2506.15477v1
- Date: Wed, 18 Jun 2025 14:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.683982
- Title: Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning
- Title(参考訳): カスタマイズ型プロンプトチューニングによる医療報告生成のためのマルチモーダル大言語モデル
- Authors: Chunlei Li, Jingyang Hou, Yilei Shi, Jingliang Hu, Xiao Xiang Zhu, Lichao Mou,
- Abstract要約: 本稿では,冷凍LLMと学習可能なビジュアルエンコーダを組み合わせたMLLMであるMRG-LLMを提案する。
提案手法は, 即時的, 即時的, 即時的なカスタマイズで, 正確な, 対象とするレポート生成を可能にする2つの実装を提案する。
- 参考スコア(独自算出の注目度): 20.195025131749944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical report generation from imaging data remains a challenging task in clinical practice. While large language models (LLMs) show great promise in addressing this challenge, their effective integration with medical imaging data still deserves in-depth exploration. In this paper, we present MRG-LLM, a novel multimodal large language model (MLLM) that combines a frozen LLM with a learnable visual encoder and introduces a dynamic prompt customization mechanism. Our key innovation lies in generating instance-specific prompts tailored to individual medical images through conditional affine transformations derived from visual features. We propose two implementations: prompt-wise and promptbook-wise customization, enabling precise and targeted report generation. Extensive experiments on IU X-ray and MIMIC-CXR datasets demonstrate that MRG-LLM achieves state-of-the-art performance in medical report generation. Our code will be made publicly available.
- Abstract(参考訳): 画像データから医療報告を生成することは、臨床実践において難しい課題である。
大きな言語モデル(LLM)は、この課題に対処する上で大きな可能性を秘めていますが、医療画像データとの効果的な統合は、いまだに詳細な調査に値するものです。
本稿では,冷凍LLMと学習可能なビジュアルエンコーダを組み合わせたマルチモーダル大規模言語モデルMRG-LLMと,動的プロンプトカスタマイズ機構を提案する。
私たちの重要なイノベーションは、視覚的特徴から派生した条件付きアフィン変換を通じて、個々の医療画像に合わせたインスタンス固有のプロンプトを生成することです。
提案手法は, 即時的, 即時的, 即時的なカスタマイズで, 正確な, 対象とするレポート生成を可能にする2つの実装を提案する。
IU X線とMIMIC-CXRデータセットの大規模な実験は、MRG-LLMが医療報告生成において最先端のパフォーマンスを達成することを示した。
私たちのコードは公開されます。
関連論文リスト
- Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval-Augmented Generation [15.468023420115431]
MLLMは、検索強化された生成フレームワークであるVisual RAGをサポートするためにどのように拡張されるかを示す。
MIMIC-CXR胸部X線レポート生成とマルチケア医療画像キャプション生成データセットについて,ビジュアルRAGが実体探索の精度を向上させることを示す。
論文 参考訳(メタデータ) (2025-02-20T20:55:34Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation [28.497591315598402]
MLLM(Multimodal Large Language Models)は、様々な画像処理タスクで成功している。
胸部X線(CXR)の理解・生成におけるMLLMsの可能性について検討した。
論文 参考訳(メタデータ) (2023-12-04T06:40:12Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。