論文の概要: Parameter-Efficient VLMs for Gastrointestinal Endoscopy: Medical Image Generation and Clinical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2605.24792v1
- Date: Sun, 24 May 2026 00:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.44462
- Title: Parameter-Efficient VLMs for Gastrointestinal Endoscopy: Medical Image Generation and Clinical Visual Question Answering
- Title(参考訳): 消化器内視鏡検査におけるパラメータ効率の良いVLM:医用画像生成と臨床視力検査
- Authors: Ojonugwa Oluwafemi Ejiga Peter, Frederick Akor Ejiga, Fahmi Khalifa, Md Mahmudur Rahman,
- Abstract要約: 本稿では,医療用視覚質問応答(VQA)とプライバシ保存合成データの生成に対処する二重パイプラインPEFTモデルを提案する。
低ランク適応(LoRA)と安定拡散(Stable Diffusion)2.1を併用して,患者のプライバシを侵害することなく,トレーニングデータベースを強化した高品質なGI画像を生成する。
- 参考スコア(独自算出の注目度): 3.7117716372644693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The major limitations of gastrointestinal (GI) endoscopy AI systems arise from a shortage of annotated data, strict privacy policies, and significant bottlenecks in conventional model fine-tuning. Such limitations impede the successful application of sophisticated AI models in clinical practice, particularly affecting the reliability and scalability of diagnosis. In this paper, we present a dual-pipeline PEFT model that addresses two fundamental problems: medical Visual Question Answering (VQA) and the generation of privacy-preserving synthetic data. For clinical VQA, we adopt the Florence-2 vision-language model. Leveraging PEFT enhances model interpretability while substantially reducing the computational cost of training. Simultaneously, we employ Low-Rank Adaptation (LoRA) with Stable Diffusion 2.1 to generate high-quality GI images that enhance training databases without violating patient privacy. This research utilized the Kvasir-VQA dataset. Our Florence-2 VQA model achieved ROUGE-1 of 0.92, ROUGE-L of 0.91, and BLEU score improvements from 0.08 to 0.24. Fine-tuning on private datasets consistently showed better results than fine-tuning on public datasets. The rank-4 LoRA synthesis achieved optimal performance with a fidelity score of 0.290, an agreement score of 0.730, and a Frechet BiomedCLIP Distance (FBD) of 1450, reducing computational costs by almost 90 percent. This framework improves the clinical potential of AI in GI endoscopy. Compared to FLUX, MSDM, and Kandinsky 2.2, our model demonstrates superior FBD and strong semantic alignment. While other models lead in Fidelity or Agreement, our lower FBD indicates better image-text coherence. These results establish our approach as a robust solution for enhancing VQA and synthetic data generation in clinical AI.
- Abstract(参考訳): 消化管内視鏡(GI)AIシステムの主な制限は、注釈付きデータの不足、厳格なプライバシーポリシー、従来のモデル微調整における重大なボトルネックなどである。
このような制限は、特に診断の信頼性とスケーラビリティに影響を及ぼすような、高度なAIモデルの臨床実践における成功を妨げている。
本稿では,医療用視覚質問応答(VQA)とプライバシ保存型合成データの生成という,2つの基本的な問題に対処する二重パイプラインPEFTモデルを提案する。
臨床VQAにはFlorence-2視覚言語モデルを採用する。
PEFTの活用は、モデルの解釈可能性を高めながら、トレーニングの計算コストを大幅に削減する。
同時に、患者プライバシに違反することなく、トレーニングデータベースを強化する高品質なGI画像を生成するために、Low-Rank Adaptation (LoRA)とStable Diffusion 2.1を採用している。
この研究はKvasir-VQAデータセットを利用した。
我々のFlorence-2 VQAモデルはROUGE-1が0.92、ROUGE-Lが0.91、BLEUが0.08から0.24に改善した。
プライベートデータセットの微調整は、パブリックデータセットの微調整よりも一貫して良い結果を示した。
ランク4のLoRA合成は、フィデリティスコア0.290、合意スコア0.730、Frechet BiomedCLIP Distance(FBD)1450で最適性能を達成し、計算コストを約90%削減した。
この枠組みは、GI内視鏡におけるAIの臨床的可能性を改善する。
FLUX,MSDM,Kandinsky 2.2に比べ,FBDが優れ,セマンティックアライメントが強い。
他のモデルではフィデリティや合意が導かれるが、低いFBDでは画像テキストの一貫性が向上している。
これらの結果は、臨床AIにおけるVQAと合成データ生成の強化のための堅牢なソリューションとして、我々のアプローチを確立している。
関連論文リスト
- A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation [3.586778724545972]
統合学習(FL)は、センシティブな医療データを交換することなく、機関間でディープラーニングモデルを協調的に訓練するための、有望なパラダイムとして登場した。
本稿では, 超音波画像を用いた乳がん診断のための統合トレーニングプロセスに, 合成画像共有を統合した生成AIベースのデータ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-29T17:05:50Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - The Utility of the Virtual Imaging Trials Methodology for Objective Characterization of AI Systems and Training Data [1.6040478776985583]
臨床および仮想CTとCXRを用いた畳み込みニューラルネットワークを用いた新型コロナウイルスの診断例について検討した。
複数のAIモデルは、多様なデータセットにわたる3D ResNet-likeと2D EfficientNetv2アーキテクチャを使用して開発、テストされた。
VITアプローチは、モデルの透明性と信頼性を高めるために使用することができ、AIのパフォーマンスを駆動する要因に関する微妙な洞察を提供し、実験的および臨床的設定のギャップを埋める。
論文 参考訳(メタデータ) (2023-08-17T19:12:32Z) - Federated attention consistent learning models for prostate cancer diagnosis and Gleason grading [23.911710601714162]
本研究は,大規模病理画像にまつわる課題に対処する,集中型注意一貫性学習フレームワークを提案する。
多発性前立腺癌19,461枚の全スライディング画像を用いて, がん診断およびGleason grading タスクにおけるFACLの有効性を検討した。
論文 参考訳(メタデータ) (2023-02-13T04:17:47Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。