論文の概要: Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.16647v1
- Date: Thu, 22 May 2025 13:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.312259
- Title: Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models
- Title(参考訳): ポイント, 検出, カウント: 指示調整型視覚言語モデルを用いたマルチタスク医用画像理解
- Authors: Sushant Gautam, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: マルチタスク医療画像理解のための微調整視覚言語モデル(VLM)について検討する。
我々は各タスクを視覚言語推論に適した命令ベースのプロンプトに再構成する。
その結果,マルチタスクトレーニングにより堅牢性と精度が向上した。
- 参考スコア(独自算出の注目度): 3.3091869879941687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate fine-tuning Vision-Language Models (VLMs) for multi-task medical image understanding, focusing on detection, localization, and counting of findings in medical images. Our objective is to evaluate whether instruction-tuned VLMs can simultaneously improve these tasks, with the goal of enhancing diagnostic accuracy and efficiency. Using MedMultiPoints, a multimodal dataset with annotations from endoscopy (polyps and instruments) and microscopy (sperm cells), we reformulate each task into instruction-based prompts suitable for vision-language reasoning. We fine-tune Qwen2.5-VL-7B-Instruct using Low-Rank Adaptation (LoRA) across multiple task combinations. Results show that multi-task training improves robustness and accuracy. For example, it reduces the Count Mean Absolute Error (MAE) and increases Matching Accuracy in the Counting + Pointing task. However, trade-offs emerge, such as more zero-case point predictions, indicating reduced reliability in edge cases despite overall performance gains. Our study highlights the potential of adapting general-purpose VLMs to specialized medical tasks via prompt-driven fine-tuning. This approach mirrors clinical workflows, where radiologists simultaneously localize, count, and describe findings - demonstrating how VLMs can learn composite diagnostic reasoning patterns. The model produces interpretable, structured outputs, offering a promising step toward explainable and versatile medical AI. Code, model weights, and scripts will be released for reproducibility at https://github.com/simula/PointDetectCount.
- Abstract(参考訳): マルチタスク医用画像理解のための微調整視覚言語モデル (VLM) について検討し, 医用画像における検出, 局所化, 所見の数え方に着目した。
本研究の目的は,VLMがこれらのタスクを同時に改善できるかどうかを評価することであり,診断精度と効率を向上させることにある。
MedMultiPointsは、内視鏡(ポリプと楽器)と顕微鏡(精子細胞)からのアノテーションを付加したマルチモーダルデータセットであり、各タスクを視覚言語推論に適した命令ベースのプロンプトに再構成する。
複数のタスクの組み合わせに対してローランド適応(LoRA)を用いてQwen2.5-VL-7B命令を微調整する。
その結果,マルチタスクトレーニングにより堅牢性と精度が向上した。
例えば、MAE(Count Mean Absolute Error)を削減し、Counting + Pointingタスクにおけるマッチング精度を向上させる。
しかし、ゼロケースポイント予測の増加など、全体的なパフォーマンス向上にもかかわらずエッジケースの信頼性の低下を示すトレードオフが出現する。
本研究は, プロンプト駆動微調整により, 汎用VLMを専門的な医療タスクに適用する可能性を明らかにするものである。
このアプローチは臨床ワークフローを反映し、放射線科医が発見を同時にローカライズ、カウント、説明することで、VLMが複合診断推論パターンを学習する方法を実証する。
このモデルは解釈可能で構造化された出力を生成し、説明可能で汎用的な医療AIに向けた有望なステップを提供する。
コード、モデルウェイト、スクリプトは、https://github.com/simula/PointDetectCount.comで再現性のためにリリースされる。
関連論文リスト
- UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。
視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。
英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文 参考訳(メタデータ) (2025-03-20T06:43:36Z) - RadVLM: A Multitask Conversational Vision-Language Model for Radiology [10.522909557551419]
本稿では,CXR解釈のためのコンパクトなマルチタスク対話基盤モデルRadVLMを提案する。
以上の結果から,RadVLMは対話能力と視覚的グラウンドニングにおいて最先端の性能を達成することが示唆された。
これらの知見は、臨床的に関連するAIアシスタントとしてのRadVLMの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-05T16:27:02Z) - LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound [7.941670191244354]
パラメータ効率の調整による中国の医用視覚会話のための微粒化適応型VLMアーキテクチャを提案する。
具体的には、微妙な医用視覚意味論の強化を実現するために、微細な視覚エンコーダを備えた融合モジュールを考案する。
実施にあたっては,病院から得られた大規模マルチモーダル中国語超音波データセットを利用する。
論文 参考訳(メタデータ) (2024-10-19T11:38:31Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。