Fugu-MT 論文翻訳(概要): UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering

論文の概要: UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering

arxiv url: http://arxiv.org/abs/2307.02783v1
Date: Thu, 6 Jul 2023 05:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 15:03:51.421324
Title: UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering
Title（参考訳）: MEDVQA-GI 2023 における UIT-Saviors: 画像強調によるマルチモーダル学習の改善
Authors: Triet M. Thai, Anh T. Vo, Hao K. Tieu, Linh N.P. Bui, Thien T.B. Nguyen
Abstract要約: ImageCLEFmed-MEDVQA-GI-2023は、消化管領域で視覚的質問応答タスクを実行した。マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャに基づいた、さまざまな事前訓練されたビジョンモデルによって構成される。 BERT+BEiT融合と画像強調の利点を生かして、最大87.25%の精度と91.85%のF1スコアを実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, artificial intelligence has played an important role in medicine and disease diagnosis, with many applications to be mentioned, one of which is Medical Visual Question Answering (MedVQA). By combining computer vision and natural language processing, MedVQA systems can assist experts in extracting relevant information from medical image based on a given question and providing precise diagnostic answers. The ImageCLEFmed-MEDVQA-GI-2023 challenge carried out visual question answering task in the gastrointestinal domain, which includes gastroscopy and colonoscopy images. Our team approached Task 1 of the challenge by proposing a multimodal learning method with image enhancement to improve the VQA performance on gastrointestinal images. The multimodal architecture is set up with BERT encoder and different pre-trained vision models based on convolutional neural network (CNN) and Transformer architecture for features extraction from question and endoscopy image. The result of this study highlights the dominance of Transformer-based vision models over the CNNs and demonstrates the effectiveness of the image enhancement process, with six out of the eight vision models achieving better F1-Score. Our best method, which takes advantages of BERT+BEiT fusion and image enhancement, achieves up to 87.25% accuracy and 91.85% F1-Score on the development test set, while also producing good result on the private test set with accuracy of 82.01%.
Abstract（参考訳）: 近年、人工知能は医学や疾患の診断において重要な役割を担い、その1つはMedVQA(MedVQA)である。コンピュータビジョンと自然言語処理を組み合わせることで、MedVQAシステムは、与えられた質問に基づいて医療画像から関連情報を抽出し、正確な診断回答を提供する専門家を支援することができる。 ImageCLEFmed-MEDVQA-GI-2023は胃内視鏡および大腸内視鏡画像を含む消化管領域の視覚的質問応答タスクを実行した。我々のチームは,胃腸画像上のVQA性能を改善するために,画像強調によるマルチモーダル学習手法を提案することで課題1にアプローチした。マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とトランスフォーマーアーキテクチャに基づいて、質問や内視鏡画像から特徴抽出のための様々な事前訓練されたビジョンモデルを備える。本研究は,CNN上でのトランスフォーマーベース視覚モデルの優位性を強調し,F1スコアが向上した8つの視覚モデルのうち6つを用いて,画像強調処理の有効性を示した。 BERT+BEiT融合と画像強調の利点を生かし, 開発テストセット上で最大87.25%の精度と91.85%のF1スコアを達成するとともに, 82.01%の精度でプライベートテストセット上で良好な結果が得られる。

関連論文リスト

Querying GI Endoscopy Images: A VQA Approach [0.0]
VQA(Visual Question Answering)は、自然言語処理(NLP)と画像理解を組み合わせて、与えられた画像に関する質問に答える。本研究は,GI内視鏡画像の医学的視覚的疑問に答えるためにFlorence2モデルの適応を探求するImageCLEFmed-MEDVQA-GI 2025 subtask 1の提出である。
論文参考訳（メタデータ） (2025-07-25T13:03:46Z)
MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
A Lightweight Large Vision-language Model for Multimodal Medical Images [0.06990493129893112]
VQA(Messical Visual Question Answering)は、医療画像の解釈と臨床質問への回答を可能にすることで、臨床的意思決定を強化する。画像特徴抽出のためのBiomedCLIPとテキスト処理のためのLLaMA-3を統合した軽量マルチモーダルVQAモデルを提案する。本結果は,オープンエンドの質問に対して73.4%の精度を示し,既存のモデルを超え,現実の医療応用の可能性を検証するものである。
論文参考訳（メタデータ） (2025-04-08T00:19:48Z)
Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy [0.024999074238880488]
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6～8時間で最大100万枚の画像を生成することができる。
論文参考訳（メタデータ） (2024-10-21T22:52:25Z)
QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文参考訳（メタデータ） (2024-03-19T17:57:24Z)
Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2024-01-23T20:26:52Z)
MVC: A Multi-Task Vision Transformer Network for COVID-19 Diagnosis from Chest X-ray Images [10.616065108433798]
本稿では,胸部X線画像を同時に分類し,入力データから影響領域を識別するマルチタスク・ビジョン・トランスフォーマ(MVC)を提案する。提案手法はVision Transformer上に構築されているが,マルチタスク設定で学習能力を拡張している。
論文参考訳（メタデータ） (2023-09-30T15:52:18Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文参考訳（メタデータ） (2023-02-25T12:12:22Z)
COVID-Net USPro: An Open-Source Explainable Few-Shot Deep Prototypical Network to Monitor and Detect COVID-19 Infection from Point-of-Care Ultrasound Images [66.63200823918429]
COVID-Net USProは、最小限の超音波画像から高精度で新型コロナウイルス陽性の患者を監視し、検出する。ネットワーク全体では99.65%の精度、99.7%のリコール、99.67%の精度で5発の撮影で訓練された。
論文参考訳（メタデータ） (2023-01-04T16:05:51Z)
Towards Trustworthy Healthcare AI: Attention-Based Feature Learning for COVID-19 Screening With Chest Radiography [70.37371604119826]
信頼性を備えたAIモデルの構築は、特に医療などの規制領域において重要である。これまでの研究では、畳み込みニューラルネットワークをバックボーンアーキテクチャとして使用していた。本稿では,視覚変換器を用いた特徴学習手法を提案する。
論文参考訳（メタデータ） (2022-07-19T14:55:42Z)
FetReg2021: A Challenge on Placental Vessel Segmentation and Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。 7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文参考訳（メタデータ） (2022-06-24T23:44:42Z)
Self-supervised Learning from 100 Million Medical Images [13.958840691105992]
コントラスト学習とオンライン特徴クラスタリングに基づく,リッチな画像特徴の自己教師付き学習手法を提案する。我々は,X線撮影,CT,MRI,超音波など,様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを活用している。本稿では,X線撮影,CT,MRにおける画像評価の課題に対して,この戦略の多くの利点を強調した。
論文参考訳（メタデータ） (2022-01-04T18:27:04Z)
Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。本稿では,生成逆U-Netという新しい生成手法を提案する。当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文参考訳（メタデータ） (2021-01-12T23:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。