論文の概要: Querying GI Endoscopy Images: A VQA Approach
- arxiv url: http://arxiv.org/abs/2507.21165v1
- Date: Fri, 25 Jul 2025 13:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.015095
- Title: Querying GI Endoscopy Images: A VQA Approach
- Title(参考訳): GI内視鏡画像の検索:VQAアプローチ
- Authors: Gaurav Parajuli,
- Abstract要約: VQA(Visual Question Answering)は、自然言語処理(NLP)と画像理解を組み合わせて、与えられた画像に関する質問に答える。
本研究は,GI内視鏡画像の医学的視覚的疑問に答えるためにFlorence2モデルの適応を探求するImageCLEFmed-MEDVQA-GI 2025 subtask 1の提出である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VQA (Visual Question Answering) combines Natural Language Processing (NLP) with image understanding to answer questions about a given image. It has enormous potential for the development of medical diagnostic AI systems. Such a system can help clinicians diagnose gastro-intestinal (GI) diseases accurately and efficiently. Although many of the multimodal LLMs available today have excellent VQA capabilities in the general domain, they perform very poorly for VQA tasks in specialized domains such as medical imaging. This study is a submission for ImageCLEFmed-MEDVQA-GI 2025 subtask 1 that explores the adaptation of the Florence2 model to answer medical visual questions on GI endoscopy images. We also evaluate the model performance using standard metrics like ROUGE, BLEU and METEOR
- Abstract(参考訳): VQA(Visual Question Answering)は、自然言語処理(NLP)と画像理解を組み合わせて、与えられた画像に関する質問に答える。
医療診断AIシステムの開発には大きな可能性を秘めている。
このようなシステムは、臨床医が胃腸疾患(GI)を正確かつ効率的に診断するのに役立つ。
現在利用可能なマルチモーダルLCMの多くは、一般領域において優れたVQA機能を備えているが、医用画像などの専門領域において、VQAタスクに対しては非常に不十分である。
本研究は,GI内視鏡画像の医学的視覚的疑問に答えるためにFlorence2モデルの適応を探求するImageCLEFmed-MEDVQA-GI 2025 subtask 1の提出である。
また,ROUGE,BLEU,METEORなどの標準指標を用いたモデル性能の評価を行った。
関連論文リスト
- Multimodal AI for Gastrointestinal Diagnostics: Tackling VQA in MEDVQA-GI 2025 [0.0]
本稿では,ImageCLEFmed MEDVQA 2025 ChallengeのSubtask 1へのアプローチについて述べる。
VQAパイプラインのバックボーンとして,大規模なマルチモーダル基盤モデルであるFlorenceモデルを採用しています。
KASVIRデータセットの実験では、微調整されたFlorenceが公式の課題メトリクスに対して正確なレスポンスを得ることが示された。
論文 参考訳(メタデータ) (2025-07-19T09:04:13Z) - GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image
Enhancement for Gastrointestinal Visual Question Answering [0.0]
ImageCLEFmed-MEDVQA-GI-2023は、消化管領域で視覚的質問応答タスクを実行した。
マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャに基づいた、さまざまな事前訓練されたビジョンモデルによって構成される。
BERT+BEiT融合と画像強調の利点を生かして、最大87.25%の精度と91.85%のF1スコアを実現する。
論文 参考訳(メタデータ) (2023-07-06T05:22:20Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。