論文の概要: A Vision-Language Model for Focal Liver Lesion Classification
- arxiv url: http://arxiv.org/abs/2505.03350v1
- Date: Tue, 06 May 2025 09:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.303505
- Title: A Vision-Language Model for Focal Liver Lesion Classification
- Title(参考訳): 焦点肝病変分類のための視覚言語モデル
- Authors: Song Jian, Hu Yuchang, Wang Hui, Chen Yen-Wei,
- Abstract要約: Contrastive Language-Image Pre-Training Model (CLIP) などの視覚言語モデル(VLM)が画像分類に適用されている。
局所肝病変(FLL)分類に特化して設計されたモデルであるLiver-VLMを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate classification of focal liver lesions is crucial for diagnosis and treatment in hepatology. However, traditional supervised deep learning models depend on large-scale annotated datasets, which are often limited in medical imaging. Recently, Vision-Language models (VLMs) such as Contrastive Language-Image Pre-training model (CLIP) has been applied to image classifications. Compared to the conventional convolutional neural network (CNN), which classifiers image based on visual information only, VLM leverages multimodal learning with text and images, allowing it to learn effectively even with a limited amount of labeled data. Inspired by CLIP, we pro-pose a Liver-VLM, a model specifically designed for focal liver lesions (FLLs) classification. First, Liver-VLM incorporates class information into the text encoder without introducing additional inference overhead. Second, by calculating the pairwise cosine similarities between image and text embeddings and optimizing the model with a cross-entropy loss, Liver-VLM ef-fectively aligns image features with class-level text features. Experimental results on MPCT-FLLs dataset demonstrate that the Liver-VLM model out-performs both the standard CLIP and MedCLIP models in terms of accuracy and Area Under the Curve (AUC). Further analysis shows that using a lightweight ResNet18 backbone enhances classification performance, particularly under data-constrained conditions.
- Abstract(参考訳): 肝疾患の正確な分類は肝疾患の診断と治療に重要である。
しかし、従来の教師付きディープラーニングモデルは、医用画像に制限される大規模な注釈付きデータセットに依存している。
近年,コントラスト言語画像事前学習モデル (CLIP) などの視覚言語モデル (VLM) が画像分類に適用されている。
視覚情報のみに基づいて画像を分類する従来の畳み込みニューラルネットワーク(CNN)と比較して、VLMはテキストや画像によるマルチモーダル学習を活用し、限られたラベル付きデータでも効果的に学習することができる。
局所肝病変(FLL)分類に特化して設計されたモデルであるLiver-VLMをCLIPにインスパイアした。
まず、Liver-VLMは、追加の推論オーバーヘッドを導入することなく、クラス情報をテキストエンコーダに組み込む。
第二に、画像とテキストの埋め込みの相似性を計算し、エントロピー損失でモデルを最適化することにより、Liver-VLMは画像特徴とクラスレベルのテキスト特徴を効果的に整列させる。
MPCT-FLLsデータセットの実験結果は、Liver-VLMモデルが標準CLIPモデルとMedCLIPモデルの両方を精度とAUC(Area Under the Curve)で上回っていることを示している。
さらに分析した結果,軽量なResNet18バックボーンを使用することで,特にデータ制約条件下での分類性能が向上した。
関連論文リスト
- CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。
当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。
パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung
Disease Classification [0.36646002427839136]
ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを利用する機械学習手法を提案する。
ボリュームCTスキャンから画像パッチの最初の抽出から始まり,ワークフロー全体を通じてゼロショットCLIPを広範囲に統合する。
我々は、ラベル付きトレーニングデータを必要としない、0.893のAUROCを含む強力なゼロショットLD分類結果を得る。
論文 参考訳(メタデータ) (2023-06-01T19:52:33Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。