論文の概要: MADPOT: Medical Anomaly Detection with CLIP Adaptation and Partial Optimal Transport
- arxiv url: http://arxiv.org/abs/2507.06733v1
- Date: Wed, 09 Jul 2025 10:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.554015
- Title: MADPOT: Medical Anomaly Detection with CLIP Adaptation and Partial Optimal Transport
- Title(参考訳): MADPOT:CLIP適応と部分最適輸送を用いた医学的異常検出
- Authors: Mahshid Shiri, Cigdem Beyan, Vittorio Murino,
- Abstract要約: 医用画像へのCLIPの適応性を改善するために,視覚的アダプタとPOT(Partial Optimal Transport)とCL(Contentive Learning)を組み合わせた新しいアプローチを提案する。
本手法は, 合成データやメモリバンクを使わずに, 少数ショット, ゼロショット, クロスデータセットのシナリオにおいて, 最先端の結果を得る。
- 参考スコア(独自算出の注目度): 14.023527193608142
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical anomaly detection (AD) is challenging due to diverse imaging modalities, anatomical variations, and limited labeled data. We propose a novel approach combining visual adapters and prompt learning with Partial Optimal Transport (POT) and contrastive learning (CL) to improve CLIP's adaptability to medical images, particularly for AD. Unlike standard prompt learning, which often yields a single representation, our method employs multiple prompts aligned with local features via POT to capture subtle abnormalities. CL further enforces intra-class cohesion and inter-class separation. Our method achieves state-of-the-art results in few-shot, zero-shot, and cross-dataset scenarios without synthetic data or memory banks. The code is available at https://github.com/mahshid1998/MADPOT.
- Abstract(参考訳): 医学的異常検出 (AD) は画像の多彩性, 解剖学的変化, 限られたラベル付きデータにより困難である。
医用画像,特にADに対するCLIPの適応性を改善するために,視覚的アダプタとPOT(Partial Optimal Transport)とCL(Contentive Learning)を組み合わせた新しいアプローチを提案する。
通常のプロンプト学習とは違い,本手法では局所的な特徴に整合した複数のプロンプトを用いて微妙な異常を捉えている。
CLはさらにクラス内凝集とクラス間分離を強制する。
本手法は, 合成データやメモリバンクを使わずに, 少数ショット, ゼロショット, クロスデータセットのシナリオにおいて, 最先端の結果を得る。
コードはhttps://github.com/mahshid1998/MADPOTで公開されている。
関連論文リスト
- MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - MR-CLIP: Efficient Metadata-Guided Learning of MRI Contrast Representations [0.8430273876996414]
MR-CLIPは、MR画像とDICOMメタデータを整合させてコントラスト認識表現を学習するマルチモーダルコントラスト学習フレームワークである。
クロスモーダル検索とコントラスト分類におけるその効果を実証し、その拡張性とさらなる臨床応用の可能性を強調した。
論文 参考訳(メタデータ) (2025-06-23T13:27:31Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation [31.72930277939111]
画像とテキスト間のクロスモーダルセマンティクスをよりよく捉えるために,大規模な事前学習型視覚言語モデルであるCLIPから表現を転送することを提案する。
効率的な適応を実現するために、CLIPに組み込まれ、ターゲットタスクに微調整される軽量アダプタモジュールであるUniCrossAdapterを導入する。
論文 参考訳(メタデータ) (2025-03-20T08:28:53Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Single-Shared Network with Prior-Inspired Loss for Parameter-Efficient Multi-Modal Imaging Skin Lesion Classification [6.195015783344803]
マルチモーダルアプローチを導入し,マルチスケールな臨床・皮膚内視鏡的特徴を1つのネットワークに効率的に統合する。
提案手法は,現在進行している手法と比較して,精度とモデルパラメータの両面で優位性を示す。
論文 参考訳(メタデータ) (2024-03-28T08:00:14Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Generating and Weighting Semantically Consistent Sample Pairs for
Ultrasound Contrastive Learning [10.631361618707214]
よく注釈付けされた医療データセットにより、ディープニューラルネットワーク(DNN)は、病変に関連する特徴を抽出する上で強力なパワーを得ることができる。
ImageNetに基づくモデル事前トレーニングは、データ量に制限がある場合に、より良い一般化を得るための一般的なプラクティスである。
本研究では,医療用USアプリケーションの領域ギャップを低減するために,ImageNetの代わりに超音波(US)ドメインを事前訓練する。
論文 参考訳(メタデータ) (2022-12-08T06:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。