論文の概要: Multimodal AI for Gastrointestinal Diagnostics: Tackling VQA in MEDVQA-GI 2025
- arxiv url: http://arxiv.org/abs/2507.14544v1
- Date: Sat, 19 Jul 2025 09:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.935846
- Title: Multimodal AI for Gastrointestinal Diagnostics: Tackling VQA in MEDVQA-GI 2025
- Title(参考訳): 消化器診断のためのマルチモーダルAI:MEDVQA-GI 2025におけるVQAの対応
- Authors: Sujata Gaihre, Amir Thapa Magar, Prasuna Pokharel, Laxmi Tiwari,
- Abstract要約: 本稿では,ImageCLEFmed MEDVQA 2025 ChallengeのSubtask 1へのアプローチについて述べる。
VQAパイプラインのバックボーンとして,大規模なマルチモーダル基盤モデルであるFlorenceモデルを採用しています。
KASVIRデータセットの実験では、微調整されたFlorenceが公式の課題メトリクスに対して正確なレスポンスを得ることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our approach to Subtask 1 of the ImageCLEFmed MEDVQA 2025 Challenge, which targets visual question answering (VQA) for gastrointestinal endoscopy. We adopt the Florence model-a large-scale multimodal foundation model-as the backbone of our VQA pipeline, pairing a powerful vision encoder with a text encoder to interpret endoscopic images and produce clinically relevant answers. To improve generalization, we apply domain-specific augmentations that preserve medical features while increasing training diversity. Experiments on the KASVIR dataset show that fine-tuning Florence yields accurate responses on the official challenge metrics. Our results highlight the potential of large multimodal models in medical VQA and provide a strong baseline for future work on explainability, robustness, and clinical integration. The code is publicly available at: https://github.com/TiwariLaxuu/VQA-Florence.git
- Abstract(参考訳): 本稿では,消化器内視鏡検査における視覚的質問応答(VQA)を対象とするImageCLEFmed MEDVQA 2025 ChallengeのSubtask 1へのアプローチについて述べる。
VQAパイプラインのバックボーンとして大規模なマルチモーダルファンデーションモデルであるFlorenceモデルを採用し、強力なビジョンエンコーダとテキストエンコーダを組み合わせて内視鏡画像の解釈を行い、臨床的に関連性のある回答を生成する。
一般化を改善するため,トレーニングの多様性を高めつつ,医療的特徴を保ったドメイン固有の拡張を適用した。
KASVIRデータセットの実験では、微調整されたFlorenceが公式な課題メトリクスに対して正確なレスポンスを得ることが示された。
本研究は, 医療用VQAにおける大規模マルチモーダルモデルの可能性を明らかにするとともに, 説明可能性, 堅牢性, 臨床統合に関する今後の研究の強力なベースラインを提供するものである。
コードは、https://github.com/TiwariLaxuu/VQA-Florence.gitで公開されている。
関連論文リスト
- Querying GI Endoscopy Images: A VQA Approach [0.0]
VQA(Visual Question Answering)は、自然言語処理(NLP)と画像理解を組み合わせて、与えられた画像に関する質問に答える。
本研究は,GI内視鏡画像の医学的視覚的疑問に答えるためにFlorence2モデルの適応を探求するImageCLEFmed-MEDVQA-GI 2025 subtask 1の提出である。
論文 参考訳(メタデータ) (2025-07-25T13:03:46Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy [3.3091869879941687]
Kvasir-VQA-x1は消化管内視鏡(GI)の新しい大規模データセットである。
我々は159,549組の新しい質問応答ペアを組み込むことで,元のKvasir-VQAを大幅に拡張した。
Kvasir-VQA-x1は、より困難で臨床的に関係のあるベンチマークを提供することで、より信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指している。
論文 参考訳(メタデータ) (2025-06-11T17:31:38Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。