論文の概要: A Multimodal Approach For Endoscopic VCE Image Classification Using BiomedCLIP-PubMedBERT
- arxiv url: http://arxiv.org/abs/2410.19944v2
- Date: Sun, 10 Nov 2024 19:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:20.732141
- Title: A Multimodal Approach For Endoscopic VCE Image Classification Using BiomedCLIP-PubMedBERT
- Title(参考訳): BiomedCLIP-PubMedBERTを用いた内視鏡的VCE画像分類のためのマルチモーダルアプローチ
- Authors: Nagarajan Ganapathy, Podakanti Satyajith Chary, Teja Venkata Ramana Kumar Pithani, Pavan Kavati, Arun Kumar S,
- Abstract要約: 本稿では,マルチモーダルモデルであるBiomedCLIP PubMedBERTの微細調整によるビデオカプセル内視鏡フレームの異常の分類について述べる。
本手法では, 血管拡張症, 出血, エロージョン, エリテマ, 異物, リンパ管拡張症, ポリープ, 潰瘍, ワーム, 正常の10種類の画像に分類する。
分類、精度、リコール、F1スコアなどのパフォーマンス指標は、内視鏡フレームの異常を正確に識別する強力な能力を示している。
- 参考スコア(独自算出の注目度): 0.62914438169038
- License:
- Abstract: This Paper presents an advanced approach for fine-tuning BiomedCLIP PubMedBERT, a multimodal model, to classify abnormalities in Video Capsule Endoscopy (VCE) frames, aiming to enhance diagnostic efficiency in gastrointestinal healthcare. By integrating the PubMedBERT language model with a Vision Transformer (ViT) to process endoscopic images, our method categorizes images into ten specific classes: angioectasia, bleeding, erosion, erythema, foreign body, lymphangiectasia, polyp, ulcer, worms, and normal. Our workflow incorporates image preprocessing and fine-tunes the BiomedCLIP model to generate high-quality embeddings for both visual and textual inputs, aligning them through similarity scoring for classification. Performance metrics, including classification, accuracy, recall, and F1 score, indicate the models strong ability to accurately identify abnormalities in endoscopic frames, showing promise for practical use in clinical diagnostics.
- Abstract(参考訳): 本稿では,VCEフレームの異常を分類するマルチモーダルモデルであるBiomedCLIP PubMedBERTを提案する。
PubMedBERT言語モデルとViT(Vision Transformer)を併用して内視鏡画像の処理を行い,血管拡張症,出血,エロージョン,エリテマ,異物,リンパ拡張症,ポリープ,潰瘍,ワーム,正常の10種類の画像に分類した。
我々のワークフローは、画像前処理とBiomedCLIPモデルを微調整することで、視覚とテキストの両方の入力に対して高品質な埋め込みを生成し、分類のための類似度スコアリングによって整列する。
分類、精度、リコール、F1スコアなどのパフォーマンス指標は、内視鏡フレームの異常を正確に識別する強力なモデルを示し、臨床診断における実用性を示す。
関連論文リスト
- Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning [5.660131312162423]
本稿では,マルチモーダルな医用画像分類のためのクロスグラフ・モーダルコントラスト学習フレームワークを提案する。
提案手法は、パーキンソン病(PD)データセットと公共メラノーマデータセットの2つのデータセットで評価される。
以上の結果から,CGMCLは従来手法よりも精度,解釈可能性,早期疾患予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T01:25:25Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - A Novel Vision Transformer with Residual in Self-attention for
Biomedical Image Classification [8.92307560991779]
本稿では、視覚変換器(ViT)のためのマルチヘッド自己注意の新しい枠組みについて述べる。
提案手法は,マルチヘッドアテンションの各ブロックにおける最高のアテンション出力を蓄積するために,残差接続の概念を用いる。
その結果、従来のViTや他の畳み込みに基づく最先端の分類モデルよりも顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-06-02T15:06:14Z) - DiffMIC: Dual-Guidance Diffusion Network for Medical Image
Classification [32.67098520984195]
一般医用画像分類のための拡散モデル(DiffMIC)を提案する。
実験の結果,DiffMICは最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-03-19T09:15:45Z) - Endoscopy Classification Model Using Swin Transformer and Saliency Map [11.031841470875571]
内視鏡画像分類のための学習手法(ローカル・グローバル・ビュー)の2つの側面を考察した新しいマルチラベル分類法を提案する。
画像の局所的特徴と大域的特徴を利用して内視鏡的医用画像に対して,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T19:36:31Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。