論文の概要: Adapting Lightweight Vision Language Models for Radiological Visual Question Answering
- arxiv url: http://arxiv.org/abs/2506.14451v1
- Date: Tue, 17 Jun 2025 12:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.460799
- Title: Adapting Lightweight Vision Language Models for Radiological Visual Question Answering
- Title(参考訳): 放射線学的視覚質問応答に対する軽量視覚言語モデルの適用
- Authors: Aditya Shourya, Michel Dumontier, Chang Sun,
- Abstract要約: 本研究では,無線VQAのための軽量な3Bパラメータ・ビジョン言語モデルを微調整する。
キュレートされたデータで適切に調整された小さなモデルでは、オープンエンドとクローズドエンドの両方の質問に対して堅牢なパフォーマンスが得られることを示す。
ドメインの専門家がVQAモデルの性能を検査し、不条件の障害モードを特定できるようにする。
- 参考スコア(独自算出の注目度): 1.0104586293349587
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in vision-language systems have improved the accuracy of Radiological Visual Question Answering (VQA) Models. However, some challenges remain across each stage of model development: limited expert-labeled images hinders data procurement at scale; the intricate and nuanced patterns of radiological images make modeling inherently difficult; and the lack of evaluation evaluation efforts makes it difficult to identify cases where the model might be ill-conditioned. In this study, we fine-tune a lightweight 3B parameter vision-language model for Radiological VQA, demonstrating that small models, when appropriately tuned with curated data, can achieve robust performance across both open- and closed-ended questions. We propose a cost-effective training pipeline from synthetic question-answer pair generation to multi-stage fine-tuning on specialised radiological domain-targeted datasets (e.g., ROCO v2.0, MedPix v2.0). Our results show that despite operating at a fraction of the scale of state-of-the-art models such as LLaVA-Med, our model achieves promising performance given its small parameter size and the limited scale of training data. We introduce a lightweight saliency-based diagnostic tool that enables domain experts to inspect VQA model performance and identify ill-conditioned failure modes through saliency analysis.
- Abstract(参考訳): 近年の視覚言語システムの進歩により,放射線視覚質問応答(VQA)モデルの精度が向上している。
しかし、モデル開発の各段階における課題は、専門家ラベル付き画像が大規模データの調達を妨げること、放射線画像の複雑でニュアンスなパターンが、モデリングを本質的に困難にすること、評価努力の欠如により、モデルが不調な場合の特定が困難になること、などである。
本研究では,ラジオロジカルVQAのための軽量な3Bパラメータ・ビジョン言語モデルを微調整し,キュレートされたデータで適切に調整された小さなモデルでは,オープンエンドとクローズドエンドの両方の質問に対して堅牢な性能が得られることを示す。
本稿では, 合成質問応答対生成から, 特殊な放射線領域対象データセット(ROCO v2.0, MedPix v2.0, MedPix v2.0)の多段階微調整まで, 費用対効果の高いトレーニングパイプラインを提案する。
この結果から,LLaVA-Medのような最先端モデルのごく一部で運用されているにもかかわらず,パラメータサイズが小さく,トレーニングデータの規模が限られていることから,本モデルが有望な性能を達成できることが示唆された。
本稿では,VQAモデルの性能を検査し,不条件の故障モードを特定するための簡易な唾液度診断ツールを提案する。
関連論文リスト
- Towards Virtual Clinical Trials of Radiology AI with Conditional Generative Modeling [10.014130930114172]
本稿では,放射線学AIの仮想臨床試験(VCT)のために設計された条件付き生成AIモデルを紹介する。
画像と解剖学的構造の関節分布を学習することにより,実世界の患者集団の正確な再現を可能にした。
我々は,合成CTを用いたVCTを用いた放射線学AIモデルの有意義な評価を行った。
論文 参考訳(メタデータ) (2025-02-13T15:53:52Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - The Relevance Feature and Vector Machine for health applications [0.11538034264098687]
本稿では,臨床研究における脂肪データ問題に対処する新しいモデルを提案する。
モデル機能は、太いデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。
論文 参考訳(メタデータ) (2024-02-11T01:21:56Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Hierarchical Analysis of Visual COVID-19 Features from Chest Radiographs [5.832030105874915]
我々は, 放射線学的決定プロセスと整合した, 人間の解釈可能なクラス階層を用いて, 放射線学的特徴をモデル化する。
実験により、モデル故障は、ICU撮像条件と非常に相関し、特定の種類の放射線学的特徴を識別することが本質的に困難であることが示されている。
論文 参考訳(メタデータ) (2021-07-14T11:37:28Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Single Model Deep Learning on Imbalanced Small Datasets for Skin Lesion
Classification [5.642359877598896]
本稿では,小・不均衡なデータセットに基づく皮膚病変の単一モデル分類のための新しいデータ拡張戦略を提案する。
このデータセット上で、様々なDCNNがトレーニングされ、適度な複雑さを持つモデルがより大きなモデルより優れていることを示す。
修正RandAugmentとMulti-weighted Focal Lossを1つのDCNNモデルで組み合わせることで、ISIC 2018チャレンジテストデータセット上の複数のアンサンブルモデルに匹敵する分類精度を達成した。
論文 参考訳(メタデータ) (2021-02-02T03:48:55Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Sampling for Deep Learning Model Diagnosis (Technical Report) [5.8057675678464555]
ディープニューラルネットワークのブラックボックスの性質は、医学的診断などの応用における採用の障壁である。
我々は,これらのモデルデバッグクエリに対して,近似的だが正確な結果を生成する新しいデータサンプリング手法を開発した。
本手法は,1つの標準的なコンピュータビジョンと1つの科学的データセットで評価し,クエリの精度において,サンプリング手法が様々な最先端の代替技術より優れていることを示す。
論文 参考訳(メタデータ) (2020-02-22T19:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。